修回日期:2021-07-08. 一、问题的提出:良善数据治理何以实现? 随着互联网技术的快速发展,流动的数据已经成为连接全世界的载体,也成为促进经济社会发展、便利人们生产生活的原动力。各类组织,尤其是公共部门,越来越多地收集和使用“海量而开放的关联数据”(Big and Open Linked Data.BOLD)[1]。政府创新就是为了寻找新的方法来改善社会发展、政府自身运作以及政府和公众之间的关系,诸多此类创新都是由“海量而开放的关联数据”(BOLD)之“可用性”(availability)驱动的[2]。“海量而开放的关联数据”与机器学习、其他形式的人工智能相结合,导致“大数据算法系统”(Big Data Algorithmic Systems,BDAS)被广泛运用于个人和组织的决策中[3]。2016年,美国数学家凯西·奥尼尔(Cathy O'Neil)在《算法霸权》一书中阐述了“大数据算法系统”无处不在的运用场景:从评估教师的教学成果、在线推销大学课程,到提供民间借贷、预测回到社会的犯人再次犯罪的可能性等[4]。 利用“大数据算法系统”来改善政府的社会治理,提高政府应对未来不确定性的能力,受到各国政府的普遍重视。在“新冠肺炎”(COVID-19)疫情防控中,“大数据算法系统”在追踪隔离、医疗救治、交通管理、物资调配等防疫活动中便发挥了独特作用[5]。然而,“大数据算法系统”在很大程度上依赖于使用各种不同来源的综合数据,其中一些数据是由组织自身控制,另一些数据是由“伙伴组织”控制,还有一些数据则是由未知实体控制。换言之,数据是“大数据算法系统”得以有效运行的基础。如果不对这些数据进行控制以确保质量和合规性,那么“大数据算法系统”将可能因为存在各类隐含风险而无法做出相应的决定。因此,许多组织均将“数据治理”(data governance)作为一种手段,对其数据的质量以及对相关法律和伦理要求的遵守情况进行控制,以保证可信决策的实现。 良好的数据治理对于数据驱动型政府的建构是必不可少的,它作为政府数据战略的一部分,可以帮助从数据资产中提取价值,在更大范围内实现更多的数据访问、共享和整合,并提高整体效率和问责制。数据治理通常包含角色与组织、数据线路、政策与标准、架构、合规、问题管理、项目与服务等核心要素[6]。由于数据使用和组织结构之间的不匹配很容易导致数据孤岛、数据重复、数据缺失、数据错误、责任不明确等问题,进而影响数据治理的成效。因此,数据治理方法的选择至关重要。数据治理的方法主要有规划与控制方法(planning and control approach)、组织性方法(organizational approach)、基于风险的方法(risk-based approach)三类[7]。其中,数据治理的组织性方法强调结构、责任、问责和报告,这种方法采用顶层设计的原则,为数据治理设置了组织结构,并将数据治理作为一种明确的权威(defining authority)[8]。 政府首席数据官(Chief Data Officer,CDO)制度是数据治理的组织性方法的具体实践,成为公共部门提升数据治理能力、优化数据资源配置、权衡各方利益冲突、推动数字政府建设的一项重要举措[9]27。尽管该制度引发了我国社会舆论的广泛关注[10],但尚未引起学术界及时、有效、广泛的理论回应,仅有少数学者从比较视角对政府首席数据官制度展开初步研究[11]。对于政府首席数据官制度在整个数据治理体系中到底处于何种地位,政府首席数据官制度在理论上是否具备理论基础,政府首席数据官制度在我国是否具备引入的必要性和可行性等问题,仍然有待研究。有鉴于此,本文拟以行政组织法的一般原理为指引,以政府首席数据官制度为主要参照领域,考察数据治理的行政机关设置情况,探究数据治理的组织法构造,为推动“良善数据治理”的实现提供参考建议。 二、数据治理与数据行政组织的基本要求 数据治理是应对数字社会、信息社会、智能社会的重要方式之一。这些新型社会形态与传统的工业社会、农业社会之间存在较大的区别,若完全延续或照搬既有的行政组织,套用传统的行政组织法原理,可能难以为数据治理提供有效的组织保障,因为数字时代的(大)数据有其独特性。 (一)数字时代的(大)数据特性 在信息与通信技术(ICT)尚未广泛使用之前,数据便以各种形式存在于人类社会之中。从旧石器时代晚期的棍棒、石头和骨头上的“计数标记”,到1854年英国流行病学家约翰·斯诺通过统计居民数据绘制霍乱疫情图,再到许多国家进行的人口普查,均体现了数据的产生、收集与分析[12]2-4。正如有学者所指出的,“人类的一切生产、交换活动,可以说都是以数据为基础展开的”[13]297。在传统意义上,数据意指“有根据的数字”,即“是对客观世界测量结果的记录,而不是随意产生的”[13]298。进入信息时代之后,“数据”二字的内涵开始扩大,不仅代指“有根据的数字”,还统指一切保存在计算机中的信息,包括文本、图片、视频等。本文所指的“数据”主要是指人类社会进入数字时代后所出现的“大数据”。不理解数字时代的(大)数据特性,就难以准确把握数据治理的应有之道。 在数字时代,数据由“小数据”发展为“大数据”,其背后的成因归结起来主要有三点:一是摩尔定律,人类保存数据的能力增强;二是社交媒体,人类生产数据的能力增强:三是数据挖掘,人类使用数据的能力增强[13]313。“大数据”并非一个确切的概念,在传统意义上,这个概念意指“需要处理的信息量过大,已经超出了一般电脑在处理数据时所能使用的内存量”;如今,这个概念可以泛指“人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的”[14]为了描述大数据的关键特征,从而达到定义该术语的目的,高德纳分析员道格·莱尼(Doug Laney)在2001年的文章中提出使用“3V”来表征大数据:一是数量大(volume),大数据是传统小数据与现代大记录进行融合的产物,“数量”指的是收集和存储的电子数据量,而且数据一直在持续增加中。二是种类多(variety),大数据是由结构化数据、非结构化数据或半结构化数据组成,数据源既有可靠的,也有令人生疑的,重复和讹误的数据随处可见。三是速度快(velocity),在万维网、智能手机和传感器等技术或设备的推动下,不仅大数据的生成速度加快,而且传播速度也越来越快,数据的处理速度以及可变性都前所未有地提高[12]16-18。