DOI:10.12154/j.qbzlgz.2026.02.011 1 问题的提出 生成式人工智能正通过其强大的自然语言处理能力深度赋能经济社会,成为引领新一轮科技革命的核心驱动力。截至2024年10月,我国通过备案的188项大语言模型中,绝大多数已停滞或仅做微调,仅有22个仍在持续迭代,且主要由超大型互联网平台及头部科技企业主导[1]。此背景凸显出两大发展特征:一是训练主体分化,“强者愈强”的格局导致资源向平台类大型企业高度集中;二是随着模型训练对高质量、大规模数据的依赖日益加深,行业已进入“数据为王”的新阶段[2],训练数据成为决定模型性能的关键因素。 大型互联网平台在训练生成式人工智能方面优势明显。根据我国《互联网平台分类分级指南(征求意见稿)》,这类企业被称为“超级平台”,其“超级性”源于用户规模超大、业务种类超广、经济体量超高、限制能力超强四大特征。这些特征使其拥有高质量的自有数据、充足的资金外采数据以及更强的自动化采集和合成数据技术。而生成式人工智能对高质量训练数据的强依赖性,进一步放大了超级平台的既有优势,促成二者间形成紧密的“平台-模型”共生关系:平台为模型提供数据,模型则通过嵌入技术反哺平台,助其挖掘数据价值、扩展自身业务。 然而,这种新兴的共生关系在释放技术潜力的同时,也通过重塑数据的流动、使用与控制方式,形成了一种独特的权力结构。该结构系统性地放大了数据利用的固有风险,催生出传统框架难以有效应对的治理难题。为此,本文将剖析“平台-模型”共生关系下的新型权力结构,阐述其内生性放大的具体风险,进而基于风险分析构建一个旨在平衡数据利用与风险控制的多方协同治理体系。 2 超级平台与生成式人工智能共生关系的具体展开 在数据驱动的数字化转型背景下,超级平台与生成式人工智能之间已形成紧密的共生关系。超级平台凭借其“超级数据能力”为模型训练提供资源保障,而生成式人工智能以其底层嵌入式的智能化支持,为平台业务提供结构性动力,进而深化其市场主导地位。 2.1 超级平台及其超级数据能力 作为数字经济体系中的核心枢纽,超级平台依托庞大的用户规模、多元化的业务场景、雄厚的经济实力以及对“平台规则制定权”的掌控[3],逐渐形成了独具特征的“超级数据能力”。这一复合性优势进一步转化为其在数据获取、整合与治理环节中的绝对主导地位,从而确立其作为推动技术进步与产业演化的关键力量。 超大的用户规模为平台提供了稳定且实时的自有数据来源。平台将用户的海量行为数据用于分析并优化服务。例如,亚马逊利用其数据分析能力,将服务从电商拓展至云计算、物流和娱乐等领域,从而全方位提升用户体验与粘性,并与持续的用户增长共同催生出强大的网络效应[4],为平台吸引更多用户、沉淀更多数据。这种自我强化的正反馈循环持续巩固着超级平台的数据优势,使其自有数据储备成为训练生成式人工智能的高质量来源。 超广的业务种类为平台提供了更多样化的训练数据。超级平台通过打造“超级APP”的业务模式[5],将网络销售、社交娱乐等众多业务整合于一体,使用户在同一生态内留下内容更丰富、跨领域的行为数据。同时,多样化交互方式也使用户留下了文字、图片、音视频等多模态数据,这些数据能够相互印证与补充,提升训练数据的整体质量。此外,内容的多样性有助于消除模型的知识偏见,而多模态数据则能显著增强其泛化与理解能力。 超高的经济体量驱动外部数据向超级平台富集。凭借雄厚的资本与技术实力,超级平台在获取各类外部数据(如开源、外采、合成数据等)时拥有绝对优势。这不仅体现在其更强的技术研发能力和市场议价能力上,也体现在其巨大的市场影响力——数据提供方更倾向于与之合作以拓展业务。 超强的限制能力催生了平台对数据的实际掌控权。这种掌控并非传统意义上的财产所有权,而是一种通过制定和修改用户协议、隐私政策等规则建立的,结合了数据占有与使用的特殊权利架构[6]。例如,微信在其服务协议中明确,账号所有权归腾讯公司,用户仅有使用权[7]。这种由规则赋予的权力贯穿了数据收集、处理乃至对外流通的全过程,最终使超级平台能够主导平台内外的数据使用与管理。 2.2 生成式人工智能对训练数据的超级需求 大规模预训练模型(如BERT)的兴起,标志着生成式人工智能时代的开启。而模型性能的提升有赖于大规模、高质量训练数据的供给。在此背景下,生成式人工智能对训练数据呈现出前所未有的“超级性”需求,这首先体现在对数据规模的极致追求上。 在规模上,现有开源数据供给远不能满足百亿级参数模型的需求。截至2024年10月,Hugging Face公布的数据集是22万余个,而国内OpenDataLab公开的数据集仅7679个。与此同时,另一主要数据来源——政府公共数据,同样面临这一困境。尽管在《生成式人工智能服务管理暂行办法》等政策推动下,我国已有243个地方政府上线了数据开放平台,但各城市开放数据的及时更新程度不高(无条件开放数据集中能按年度更新的仅占18%),且对高需求数据的开放比例仍然较低[8]。