一、问题的提出 随着信息技术的飞速发展,数据已然跃升为驱动经济发展、社会治理和技术创新的核心生产要素。广泛的数据采集与利用催生了众多前沿技术和新兴业态。根据处理程度不同,数据可分为原始数据和衍生数据(derived data)。①衍生数据由对原始数据的加工处理而生成,并已发生结构性改变且实现性能提升。②原始数据往往未经深度分析过滤和提炼整合,结构性较弱且来源较为复杂,难以充分释放其数据价值。衍生数据作为具有高附加值的数据形态,是数据价值生成的高点。数据加工者对原始数据进行清洗、整合与结构化等处理,并运用统计分析、机器学习等数据分析技术挖掘数据中隐含的模式、关联和趋势,提升其结构性和可用性。这一过程将原始数据转化为具有高度价值的信息和知识,实现了数据由量变到质变的飞跃,为实际应用场景直接提供智慧与洞见。产业实践中,衍生数据的生成和应用场景十分广泛,如电商领域的淘宝“生意参谋”、京东“京准通”,搜索引擎领域的“百度指数”“谷歌趋势”,以及交通领域的“高德交通大数据平台”“百度地图慧眼”等。广州首个公共数据授权运营的数据产品“企业经营健康指数”,已在普惠金融场景中为金融机构提供融资信用支持。 衍生数据已成为数字经济产业发展的重要议题。目前,国家政策层面已高度认可衍生数据的重要意义,2022年《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》(下文简称“数据二十条”)第7条,特别强调了经加工、分析等形成数据或数据衍生产品的经营权。③国家数据局于2025年3月发布的《数据领域常用名词解释(第二批)》将衍生数据定义为:“数据处理者对其享有使用权的数据,在保护各方合法权益的前提下,通过利用专业知识加工、建模分析、关键信息提取等方式实现数据内容、形式、结构等实质改变,从而显著提升数据价值,形成的数据”。在地方立法探索上,《黑龙江省促进大数据发展应用条例》《福建省大数据发展条例》《杭州城市大脑赋能城市治理促进条例》等地方性法规,均认可衍生数据作为一种独立的数据类型。由此可见,当前国家政策、地方立法和数据产业实践均对衍生数据给予高度重视,并积极探索其开发利用,以此提升产业效能和社会治理水平。 在当前的数据产业实践与司法裁判中,衍生数据的识别与权利配置问题日益凸显。首先,衍生数据的识别涉及如何区分衍生数据与原始数据。司法实践中,法院已逐渐认可衍生数据的独立性及商业价值,并在肯定数据处理者技术投入和创造性劳动的同时,关注衍生数据的权益归属问题。然而,衍生数据的识别标准仍待明确。其次,在数据产业发展的诸多场景中,均存在衍生数据相关参与方的产权配置和利益平衡问题。例如,在数据爬取场景中,数据处理者对基于爬取行为取得的原始数据加工生成衍生数据;在用户授权互联网平台企业加工处理的场景中,不论互联网平台的加工行为是否处于用户授权范围内,均可能基于数据处理行为生成衍生数据。此类问题的核心在于,投入劳动和资源的数据处理者是否对衍生数据享有产权,以及该数据产权的内容和边界如何;数据处理者获得原始数据的途径合法与否,是否会影响其对衍生数据的权利,以及如何对在先权利予以救济。 衍生数据的精准识别与产权配置是大数据产业实践与数据产权制度建构中的关键问题,其核心在于如何在原产权保护与新投入激励之间求取平衡。然而,既有研究整体上仍较为初步,对衍生数据的识别标准与权利配置尚缺乏体系化展开。基于此,本文从衍生数据识别标准的建构出发,在明确权利配置对象边界的基础上,结合具体生成场景,进一步探讨衍生数据的产权配置规则与在先权利保护路径,以期为充分实现数据要素价值、促进我国数据产业与数字经济的健康发展提供法律保障。 二、衍生数据的识别与产权配置困境 (一)衍生数据的识别症结 衍生数据的识别是衍生数据产权配置的前置性问题。尽管衍生数据应与原始数据相区分已渐成共识,当前司法裁判和理论研究仍缺少可普遍适用的衍生数据识别标准,即经由何种程度的数据处理,衍生数据才能在规范意义上被评价为已经发生质变,需要重新进行产权配置。 司法裁判在承认有必要区分原始数据与衍生数据的基础上,对衍生数据的识别侧重点不尽相同。在“淘宝诉美景案”中,④法院将衍生数据界定为:数据处理者在巨量原始数据的基础上,通过特定算法深度分析过滤、提炼整合而形成的以趋势图、排行榜、占比图等图形呈现的指数型、统计型、预测型的衍生数据。对衍生数据的识别标准,法院提出了三点:其一,数据是否经过区别于简单收集或整理的深度加工;其二,加工结果是否与原始数据之间不具有一一对应关系;其三,该加工结果能否独立产生显著的经济价值。不过,法院对何谓深度加工,数据清洗、去重或均值计算是否属于深度加工,“不具有一一对应关系”应如何理解,是否意味着任何统计性结果均可被视为新数据等问题,并未作出进一步阐释。在“爱拼诉学而思案”中,⑤法院对衍生数据的认定呈现出更为细化的分析路径,认为需要考量以下两点:其一,数据处理者是否通过数据清洗、别名识别等技术,将原始数据整理成标准化的有效信息。例如,该案中,原告识别归类广告、虚假等异常数据并剔除无效数据,合并整理重复数据;通过别名识别技术统一原始数据中的多元化用词和名称;通过脱敏技术对原始数据重新编排和统一,使其“不会体现、回溯或复原到”原始数据。其二,数据处理者是否在此基础上进一步引入大数据分析与计算模型,对整理后的基础数据进行深度分析,进而生成具有预测功能的统计结果。例如,该案中,原告通过建构应用计量经济学和信息经济学模型,使用获取到的上亿级别的原始数据建立各维度的薪酬指数模型,从而预测学校未来的薪酬指数变化趋势以及该校学生的就业行业情况。