算法不正义与大数据伦理

作 者:

作者简介:
林曦,复旦大学社会科学高等研究院教授、院长助理;郭苏建,教育部“长江学者”特聘教授,复旦大学社会科学高等研究院院长(上海 200433)。

原文出处:
社会科学

内容提要:

大数据正在对中国社会科学研究范式、路径、方法和未来发展产生极其重大而深远的影响和挑战。然而,对于以各种算法为基础的大数据而言,在其数据收集、处理和应用中,也出现了相应的不正义伦理议题,亟需社会科学研究者进行深入思考。所谓的算法不正义,指的是在大数据的知识建构过程中,社会不同个体或团体,在大数据资源的占有、使用和分配上出现不平等,从而导致在数据资源的“代表性”、“用户画像”、决策支持、行动干预等不同维度上出现不正义的情形。在大数据收集、处理、应用的过程中,算法忽视或者无法甄别数据来源,传输和使用过程中对某个区域范围内总人口中特定人群的优待或者排斥,从而导致数据本身所蕴含的不平等被原封不动地转移到大数据的计算结果之中,这种计算结果有可能反过来进一步加剧原本不同人群在数据资源分配和再分配上的不平等,进而导致基于算法的大数据不平等和不正义。为了解决这些算法不正义的问题,学者们也提出了诸如“促进平等的数据倡议”的行动方案,有些国家和地区还出现了公民自发的“量化自我”运动,以有意识地应对因大数据及其算法而导致的不平等和不正义。


期刊代号:B8
分类名称:伦理学
复印期号:2020 年 11 期

字号:

       中图分类号:B82-057 文献标识码:A 文章编号:0257-5833(2020)08-0003-20

       在过去的十年间,大数据对我们身处的社会进程和发展产生了很大的影响,在世界范围内,我们都可以观察到一个“数据化”(Datafication)的现象①。它包含了数字技术的蓬勃发展,而且,数据在各个国家的发展过程中发挥越来越重要的作用。数据的体量、应用规模、速度、范围等都出现了大规模的增长,数据也逐步成为政策决策的重要参考对象②。联合国把这个过程称之为“一场数据革命”③,并预言这样的一场革命,将带领人类社会进入可持续发展的轨道。新形式的数据,尤其是大数据和人工智能,能够帮助发展中国家更好地实现可持续发展的目标,比如,通过无人机、数据监控,更好地服务农业的发展、提高第一产业的效率,在工业上运用大数据实现智能制造,在公共卫生方面运用大数据预测流行病、提前部署疾控措施,通过大数据提高政府公开透明和行政效率,等等④。

       从定义上看,大数据所包含的数据种类繁多、体量巨大,运算速度也比传统数据高很多⑤,美国公共舆论研究学会曾给大数据下了一个定义,其认为大数据作为一个词汇,只是笼统地描述了一堆内涵丰富、复杂无比的数据集合,里面包含了各种与数据相关的特性、实践、技术、伦理议题以及结果⑥。正因为大数据体量巨大、种类庞杂、来源广泛,对于大数据而言,其数据采集、分析和应用都是借由各种算法来进行。一般而言,算法的定义即旨在解决某个问题的方式或进程。如果问题可以被看成是一个需要求解的数学题,那么,算法就是解决该问题的方程式,将输入的选项通过一系列的解决方法,得出输出结果⑦。对于大数据而言,算法在其中起到了不可替代的作用。搜索引擎运用特定的算法,对海量的数据进行采集、过滤、分类和索引;数据分析技术则依赖算法,对采集到的数据进行清洗、结构化处理和运算;最终,当数据分析结果需要呈现的时候,算法又对这些结果进行可视化的处理或者显示优先顺序的排列⑧。大数据虽然是关乎数据的整个价值链,但是,算法是贯穿始终的。离开了算法,大数据就无法以一种被人类思维“可理解”的方式呈现出来。对于大数据与社会科学研究之间的关系,乐观派的人士认为,数据收集和大数据挖掘能够让我们获得全样本数据,避免数据采集过程中因为无法获得足够样本量而导致数据偏差,正是因为大数据本身在数据采集过程中的大样本优势,所以,它可以帮助我们避免因为人为偏好而导致误差。但是,大数据中的算法,只有在数据来源本身优良、高质量的情况下,才能真正发挥出上述的优势,如果数据本身是有缺陷的,或者不够完美,那么,技术乐观派的那种理想主义假设就无法落到实处。现实的情况是我们所收集到的数据很多时候都是不完美的,这些数据有可能是之前决策者基于人为偏好而得到的,因此,此类数据本身就包含了偏见、不平等、排斥。而且,因为设备和资源使用的分布不均衡,这也会导致我们在采集数据的过程中,那些占有更多数据资源的使用者的偏好更有可能进入数据,如此一来,我们所得到的数据就会与社会上广泛存在的偏好、偏见重叠在一起。在数据挖掘的过程中,有可能会出现的情况是它与此前业已存在的排斥、不平等现象呈现出惊人的相似性或者一致性,都以同样的规律来呈现。因此,如果我们对数据进行分析,本身不加反思、不加批判地接受,那么,这就让我们无视那些在过去的历史发展中被边缘化、处于弱势地位或者岌岌可危的群体所遭受的不公,这就相当于拒斥了这些群体完全融入我们的公共生活之中。程序员或者编程人员在开发软件、设计算法的时候,可能并没有想到这些问题,而这些偏见都是人们在使用算法的过程中才出现的,因此,它是一个非意图的后果,如此一来,要想真切地发现并纠正此类算法所带来的偏见和不正义,就显得尤其困难⑨。

       对于大数据而言,经常会出现的一个迷思就是公众认为大数据是以“客观、公正、去意识形态化”的面貌出现,大数据否认自身存在意识形态或者偏见,这本身就是大数据的一个“意识形态”⑩。这其实是无视了大数据在数据收集的过程中,常常由商业公司来操作、带有商业目的或者追逐商业利益,由此而得来的数据难免会产生偏见或者偏好。不同类型的大数据,其内在的偏好有可能是不一样的,比如,在社交应用软件或者社交媒体网站上,一般在加入之前,都会在条款里面要求用户同意对方使用该用户录入的数据,如果有人对自己的隐私比较看重,不愿意接受这些条款,那么,这样的用户就无法在这些网站上注册成为用户。通过这些社交媒体网站或者应用软件而得到的大数据,很难宣称自己的数据结果是无偏见的,因此,这些数据在收集伊始,就已经排除了那些对自己隐私更加看重的用户(11)。

       因此,对大数据在形成公众认知和社会科学研究当中所起到的作用进行一个正义伦理维度的检视就显得重要。大数据不仅仅关乎技术,更重要的是它已经变成一整套的知识生产和建构体系,改变了我们对理论和实践的认知(12)。因此,本文就从这一知识体系入手,希望能够从大数据知识如何得以建构的运行体系中,发现大数据及其算法、运算、数据流通背后可能被人忽略的不正义层面。为此,我们有必要从整个大数据知识建构体系来进行逐一分析。这个体系大致包含三个方面,涵盖数据收集、数据分析和数据应用。在数据收集中,在确定了相应的“数据源头”(Source)之后,会运用相应的技术对其中的数据进行捕获或者抓取,这些数据汇总起来就形成了对“数据源头”或者数据用户的一个“代表”(Representation)。在收集数据的基础上,还需要对这些数据进行清洗、分门别类、结构化处理,由此完成一个“用户画像”(Profile),形成对数据的初步分析,并在此基础上进行相应的算法分析。数据分析所得出的结果以一定的形式呈现出来,并可以被运用到各个层面,用以支持公共决策或对行动进行干预(13)。这些数据的收集、分析和应用,又会反过来为整个大数据知识体系添砖加瓦,推动整个体系在增量和存量层面的积累。下文对大数据正义伦理所进行的探讨,也将以这个结构来展开,笔者将逐一讨论这一大数据知识建构体系中所可能出现的不正义场景。

       一、数据收集

       对于大数据而言,收集或采集数据是数据挖掘至关重要的一环,后续的数据分析和应用都取决于所收集或采集到的数据质量。数据收集主要涉及两个方面的问题:“采集”和“捕获”。首先,大数据集合需要确认被收集或采集的对象,即所谓的“数据源头”。不同类型的数据源头决定了数据收集或者采集方式的差异,比如,数据源头是温度、气压、空气质量等,则较有可能通过物联网传感器进行收集;相比之下,如果数据源头与人类行为有关,则很可能通过各种社交网络、互联网站或便携移动设备来进行收集。以智能交通为例,如果数据源头是实时的路况信息,则数据采集会通过GPS定位信息、分布在交通网络上的摄像头以及交通关卡的车辆统计等方式来进行(14)。本文主要讨论社会科学视域下的大数据,因此,笔者将主要讨论以人类行为为源头的大数据收集。

相关文章: