1 引言 当前,具身智能、数字孪生等数智技术的颠覆性发展,引发人形机器人、AI大模型的火爆“出圈”,形塑了以沉浸交互、即刻反馈为特点的知识涌现新时代[1],也更彰显了数据作为基础资源的战略价值[2]。在流动性已然成为新经济核心资产的背景下[3],数据要素的价值生成离不开高效开放的流动环境与生态。但当前数据市场化配置中存在的数据权属模糊、数据资源不当获取、隐私泄露、数据投毒等风险隐患和安全痛点,使得流通交易中仍面临诸多壁垒问题[4]。据IDC预测,2025年全球数据量将扩展至163ZB[5],但实际完成流通交易的数据量却不容乐观。以我国为例,场内数据交易占数据市场总规模不足2%[6]。也就是说,在现实的数据流通交易中,存在着“丰裕的贫困”悖论[7],即尽管数据资源体量庞大,却存在不易甚至无法流通的困境,导致数据有效供给匮乏和价值释放不足,亟待通过制度创新与技术突破重构数据要素化路径,分布式的可信数据空间建设便是因应时代之需的创新布局。可信数据空间不仅为破解“丰裕的贫困”悖论提供了可行方向,更为实现“流动的丰盈”,即打通数据流通的“宝瓶口”提供了切实方案[8],让数据不仅供得出,更能流得动、用得好。 继“数据二十条”提出建立数据可信流通体系之后,国家数据局分别于2024年11月和2025年4月出台可信数据空间专项政策,江苏、湖南等地积极跟进,发布推动地方数据空间建设的行动方案。相较于政府层面积极的前瞻规划,国内学界对于这一新兴选题的关注度较为缺乏,呈现出理论探索迟滞于行动布局的张力性矛盾。因此,本文基于数智社会的实际需求,按照“概念切入点—功能投射点—现实立足点—案例聚焦点”的研究思路,分别从理论观照与实践观察两个维度对可信数据空间进行系统分析,希望通过理论与实践的补足与融合,丰富数据空间的研究成果,也为实务部门高质量地开展可信数据空间建设提供支撑。 2 文献综述 自2005年美国学者Franklin等正式提出“数据空间”这一概念以来,国外学者便对其展开了分析,内容涵盖数据空间的内涵与演化、运行策略与模式、技术架构及优化、建设状况等。内涵与演化方面,Reiberg等认为,数据空间是指基于共同政策、规则和标准,用于主权数据共享的联合开放基础设施[9]。Otto等指出,相较于数据库、数据湖等数据组织与管理模式,数据空间是唯一支持跨行业、跨平台的分布式存储架构,并经历了“数据抽象管理→互联数据→数据交换多边平台”的演化[10]。运行策略与模式方面,Möller等认为,数据空间旨在弥合数字基础设施领域的缺口,通过控制策略行使数据主权,使数据提供者能从语义和技术上对数据用户如何使用其数据进行形式化界定[11]。Jeffery等指出,数据空间提出了一种按需付费模式,通过引用协调等自动化机制提供初始对应关系,随后利用用户反馈逐步确认关系匹配[12]。技术架构及优化方面,为了实现完全的数据互操作性,Solmaz等构建了交互式数据集成系统TrioNet,其利用弱监督和主动学习,在最少的人工输入下,以半自动化方式完成本体匹配、模式匹配、实体匹配等多种数据集成步骤[13]。Curry等则基于智能能源和水环境的数据管理需求,构建了实时链接数据空间架构。作为智能环境中数据管理的支持平台,该架构支持增量式按需付费数据管理,简化了智能环境应用程序和分析的开发[14]。建设状况方面,国外学者的目光多聚焦于欧洲地区,探讨其在工业、能源、健康、文化遗产等领域的数据空间建设动态和经验启示等。如Alonso等基于FIWARE开源软件组件,设计了工业数据空间的通用框架,并通过行业用例中的部署和测试,验证该架构的有效性[15]。鉴于欧洲健康数据空间在采用和实施电子健康记录系统中存在的问题,Schmitt等认为,应考虑欧盟和成员国层面的具体情况,以实现健康数据空间建设愿景[16]。Meneguzzo等针对欧洲能源部门数据管理中存在的数据孤岛和协作障碍,结合分布式账本技术与国际数据空间架构,创建了符合Gaia-X原则的统一欧洲能源数据空间[17]。 相较于国外,国内学者对数据空间的学术关注度较为欠缺。而且,与国外学者对数据空间持续性关注不同的是,我国学者的研究较为零星和分散,直至2024年后,才有更多的学者将目光转移到数据空间中。如夏义堃等以Data Spaces Radar为例,对数据空间的建设特点与运营模式进行了提炼总结[18]。周文杰基于循证实践,论述了支撑可信数据空间核心能力建设的行动指南与具体方案[19]。蒋冬英则具体探讨了图书馆可信数据空间的建设意义和策略[20]。相较于数据要素流通、数据价值创造、数据开放共享、数据治理等其他数据热门选题,面向可信数据空间的针对性研究数量仍明显不足。同时,既有研究主要囿于法律规制或技术属性两种进路[21-22],对于可信数据空间理论与实践相结合的探讨尤为欠缺:一方面,可信数据空间的内涵、属性、价值等基础性问题仍需进一步澄明;另一方面,面向具体实践的可信数据空间建设状况及其运营机制等也有待阐释。因此,本文基于已有研究和现实样态,对可信数据空间进行系统性、针对性探讨,主体内容框架如图1所示。

图1 主体内容框架 3 面向可信数据空间建设的理论观照 高效的数据流通交易是数字经济发展的关键,但数据供给方往往因担心失去数据控制权而不愿交换、共享数据,可信数据空间便是针对该问题而提出的解决方案。可信数据空间(国外亦称“数据空间”或“共同数据空间”[23]),其核心要义是既能保有数据提供者的数据控制权,又能满足数据使用方的需求,也能为数据要素的流通开放提供可信赖的分布式基础设施。可信数据空间代表了一种遵循关联数据设计原则的数据共存概念,但相较于数据库、数据湖,可信数据空间实现了pay-as-you-go的轻量级数据融合[24]。而在该概念的最初提出者Franklin等看来,数据空间可以对不同参与者中数据间的关系(或关联)进行建模,基于建模的数据空间可以捕捉参与者之间不同类型的关系/关联,以实现建立在数字信任基础上的跨域和跨界数据互联、互通、互操作[25]。 为了更客观和全面地挖掘可信数据空间内涵,解析其属性,本文参考Vom等提出的步骤[26],以Web of Science核心合集和CNKI数据库为基础,分别以“data space”和“数据空间”为标题字段进行检索,语种为英文或中文,文献类型限定为Article、Proceeding Paper(期刊或会议论文),检索时间截至2025年5月1日,为避免遗漏,通过谷歌学术、百度学术等进行补充和反向检索,初步获得文献3,862篇(英文3,613篇、中文249篇)。经阅读标题、摘要、全文等,删除重复文献、主题无关文献(即非基础设施性质的数据空间)。在对文献进行筛选去重后,按Levy和Ellis提出的严谨性、完整性、清晰性、简明性标准对文献进行质量评估[27],最终获得符合要求的文献175篇(英文149篇、中文26篇),作为其后理论分析的样本来源。