1 引言 早在文字还未出现的远古时代,人类就开始用结绳记事的方式来记录事件,形成了最原始的数据。文字的出现和纸的发明让人类能够以纸质化的形式存储数据。计算机的出现使得人类能够以数字化的形式对数据进行存储和管理,逐步发展出了文件系统、数据库系统等数据管理系统。到了互联网时代,数据量呈现出爆炸式增长,数据的发展也进入了一个新阶段。 由于数据是在物质运动、人类活动和社会运行的过程中产生的,其本身记录着反映世界、人类、社会运行状态和规律的大量信息。当面向特定事物或活动的数据被有效聚集后,数据成为了一种重要的资源,人们能够通过信息技术挖掘出数据所承载的信息,从而为人们的生产生活提供有效的支持。人们有组织的记录数据,处理数据和运用数据也就成为了一类典型的系统工程,可以被称为数据系统工程,其中存在着很多亟待研究的科学、技术和工程问题,需要在各类数据特性分析的基础上加以研究,形成能够有效挖掘数据价值的系统工程理论方法。 为了更好地研究数据的本质特性,需要对数据进行分类。从数据成因视角看,数据可以分为三类:1)记聚类数据,指在办公、生产和运作等过程中记录并聚合而成的数据。例如政府和企事业单位办公系统中记聚的数据。这些数据一般都是结构化的。2)沉积类数据,指在经济社会、科学技术和文化艺术等发展过程中长期积累形成的数据。例如:历史文献、科学著作、学术论文和文艺作品等。这些数据一般都是非结构化的。3)产成类数据,指人们为了一定的目的有组织的生产的数据。例如训练各类机器人的数据、用于大模型学习训练的合成数据和用于理解自然和社会所获取的数据等。这些数据一般都为混合结构。 这三类数据虽然形成方式各不相同,但均是以数据为载体,都呈现出多模态的特征,其处理方式也有着相近或相同之处。三类数据的有效利用也都面临着技术标准碎片化、权益界定模糊化和价值评估主观化等共性问题,需建立包含质量评估标准、流通交易规则和伦理治理框架在内的制度体系,构建覆盖数据全生命周期的产业生态,使其内在价值能够被更好的挖掘和利用。 为此,本研究首先对记聚类、沉积类和产成类三类数据的特性分别进行解析,从数据的产生、存储、流通、处理和使用等全过程挖掘其各自特点和共性特征,然后提出数据产业发展过程中应当重点关注的核心要点,以及中国特色数据生态的建设发展建议,以期为我国数据产业的建设和发展提供支撑。 2 记聚类数据与数据空间 记聚类数据是在特定业务流程或操作环节中,通过系统自动记录或人工输入聚合而成的结构化数据,该类数据主要存在于信息系统中,具有独特的资源禀赋与价值增值潜能。但数据资源的价值增值需依托市场化交易与流通体系实现,当前实践中存在着三维约束:产权界定的制度性壁垒、功能扩展与隐私安全的治理悖论以及数据空间概念的范式性困境。下面针对这三维约束展开剖析。 2.1 数据资源与数据资产 数据的交易与流通作为驱动数据资源价值释放的核心机制,其有效运行以清晰的产权界定为前提基础。从经济学视角审视,资产作为能够产生预期经济效益的资源,其资产属性在记聚类数据中体现为决策有用性带来的经济价值转化。数据资源与数据资产的区别在于,数据资产必须具有明确界定的产权结构。当数据资源完成产权确权后,即可实现资产化转型。传统实物资产的产权确定主要依赖所有权界定范式,但数据要素特有的非消耗性、非竞争性、可再生性、多主体关联性和价值衍生性等属性[1,2],使得一般意义上的所有权框架难以有效适配数据资产。由于所有权是产权结构的核心,是产权制度的基础和关键组成部分,数据资源所有权模糊不清会导致数据要素市场失灵与资源浪费、抑制创新与垄断风险等严重问题。因此,明确界定的所有权是构建可持续数据交易与流通体系绕不开的必要前提。 从数据主体角度,数据分为公共数据、企业数据和个人数据三大类。其中公共数据是在依法履行公共事务管理职责或提供公共产品与服务过程中收集、产生的数据,例如政务数据、基础设施建设与运营等公共产品与服务运营数据。这类数据作为公共财政支持产生的数据资源,其所有权理应归属国家。个人数据由自然人生成,主要包括个人身份信息、个人生物识别信息和个人财产信息等,其所有权应归属数据主体本人。企业数据指各类市场主体在生产经营活动中采集加工的不涉及个人信息和公共利益的数据,包括企业基于自身业务产生的数据和企业通过其他渠道获得的数据。其中基于自身业务生产的数据,例如生产过程数据和企业运营数据,这类数据的所有权清晰,归企业所有。目前难以确定所有权属的是企业数据中由社会公众产生的数据,例如移动通信商的用户使用数据、电子商务平台上的用户消费数据等[3]。针对这类数据,可以通过引入集体所有制模式来加以解决。从数据生成逻辑看,公众作为数据源头的直接贡献者,其行为、互动与需求构成了数据的基础价值,企业作为技术工具和平台提供者完成了数据的采集、加工与存储,是数据价值转化与多维增值的赋能者。因此此类数据应归产生数据的公众和采集加工存储的企业集体所有。集体所有制可通过建立数据权益的共享机制,将数据收益反哺公众或用于公共产品供给,例如通过数据信托或合作社模式,由集体代表公众行使数据管理权,平衡个体隐私保护与数据要素市场化流通之间的矛盾。