近年来,随着计算机和信息技术的发展,大数据挖掘正在深刻地改变人类的生活。大量的数据流与日益提升的算法分析和技术能力相结合,使人们能够利用基于机器学习的算法来解决复杂的问题。①这种算法决策在招聘、警务、教育、信贷、刑事司法、股票交易等领域得到广泛运用。例如,教育部门使用算法来决定是否对教师进行续聘。②学校往往通过算法手段来决定学生是否符合录取条件。法官也会利用算法来对刑满释放人员重新犯罪的可能性进行评估。③这在一定程度上能够克服人类决策的主观性,但是它也带来了更为复杂的、隐蔽的新型歧视。 学者们和政府愈来愈意识到算法歧视的广泛存在,并认为这些新型歧视能引发一系列的社会问题、伦理问题和法律问题。巴罗卡斯(Solon Barocas)和塞布斯特(Andrew D.Selbst)就认为,算法自动化决策可能给某些群体带来歧视性的不利结果。2014年,白宫发布了一份题为《大数据:抓住机遇,保护价值》(Podesta et al.,2014)的报告。该报告认为,受数据来源的特定性和算法设计者主观意图的影响,算法自动化决策往往会对申请者的工作、教育或信贷构成隐性偏见。这种结果可以自我强化,从而系统性地减少个人获得信贷、就业和教育的机会,这会使他们的处境恶化并在未来的申请中处于不利地位。④因此,美国联邦政府及各州都把存在实质性歧视影响的算法纳入法律调整的范围,并对歧视性算法进行司法审查。 就既有的研究而言,学者们主要是从具体领域来对算法歧视问题进行研究的,并且把研究重点放在证明算法在该领域是否存在歧视这一问题上。例如,ProPublica公司通过量刑的累犯模型证明法院把犯罪风险评估算法作为量刑指南,存在系统性歧视的问题。⑤另一方面,学者们也重点关注了使用算法的合宪性问题。例如布鲁纳(Peggy Bruner)就重点考察了威斯康星州诉卢米斯案(Wisconsin v.Loomis)中算法使用是否合乎宪法的基本要求。⑥从总体上讲,这些研究都是从具体个案出发进行的深入研究。但是,它们并没有归纳总结算法歧视的基本类型,也没有对算法歧视的法律规制方式和司法审查问题进行系统的梳理和研究。因此,本文将对这些问题进行研究。为了分析的便利,本文将主要借助于美国的相关法律实践来加以展开。 一、算法歧视的基本类型 尽管法学界对于歧视没有统一的界定,但是,从社会心理学上讲,歧视是不同利益群体间发生的一种不平等的情感反应和行为。在传统的物理社会,歧视比较容易被辨识,而在大数据时代,算法歧视具有较强的隐蔽性,有时甚至是无意识的。在大数据挖掘和运用过程中,数据的挖掘方或算法的决策者往往会出现以下三种典型的隐蔽歧视。 (一)偏见代理的算法歧视 偏见代理的算法歧视,又称为“关联歧视”。在这类歧视中,算法决策者虽然使用了客观中立的基础数据,但这些合法的客观中立的数据组合在一起产生了歧视性的后果。换言之, 决策者并不一定具有产生这种歧视影响的主观意图。例如在预测警务算法中,过分强调邮政编码,可能导致低收入的非洲裔美国人社区与犯罪地区产生联系,进而导致该群体成员都成为预测犯罪的具体目标。⑦又例如,公司以通勤时间长短作为决定是否录用员工的重要标准。通勤时间太长,员工上班成本太高,因此公司拒绝录用。这很可能会对居住在边远郊区的低收入群体构成歧视。⑧在这种算法歧视中,邮政编码、通勤时间等数据信息都是合法获得的,但是,算法的设定者往往会在这些数据与特定群体的行为之间建立某种虚假的关联,从而对此类群体带来歧视性后果。⑨算法决策者之所以会产生这种歧视,其原因主要在于他们的“冗余编码”,即受保护群体的敏感性数据恰好在其他可合法获得的数据中编码。⑩这种通过属性关联方式发生的歧视在外观上看来是客观中立的,因此具有很强的隐蔽性,难以为人们所辨识。 (二)特征选择的算法歧视 特征选择的歧视,是传统歧视模式在网络社会中的一种反映,是固有的刻板印象在数据挖掘中的再现。从理论上讲,算法决策是一种“偏见进,则偏见出”(11)的运作模式。这种算法歧视直接将性别、种族等敏感属性输入系统,从而构成一种歧视性的看法。这种歧视性看法一旦进入算法系统,反馈回路就可能会进一步强化这种偏见。在Google算法歧视案中,人们搜索非洲裔美国人相关名称时,往往会显示更多的与犯罪相关的信息。(12)这些结果反映的是过去搜索行为模式形成的印象,而不是程序员故意地创造了一种歧视性算法。(13)尽管如此,Google的此类算法可能会促使雇主更仔细地审查非洲裔美国申请人的犯罪记录,并对非洲裔申请人采取不同的待遇。在这种歧视的作用下,雇主会增加对非洲裔申请者犯罪背景的调查次数。这会挖掘出非洲裔人群更多的犯罪记录,从而加剧偏见的恶性循环。(14)这种特征选择的算法歧视会进一步强化人们过去形成的刻板印象,进而对某些处于不利地位的群体产生更加不利的影响。 (三)大数据(算法)“杀熟” 大数据(算法)“杀熟”,也是大数据时代常见的一种隐蔽的算法歧视类型。这种算法,往往会针对不同客户采取不同的对待模式,即“看人下菜碟”。价格歧视和特定推送是此类歧视的典型表现。这种歧视类型源自计算机对过往数据的深度学习。人类行为的可记录、可分析属性以及计算机深度学习能力是这类歧视产生的前提条件。人们在线上交易过程中往往会形成浏览、收藏、下单、评价等记录。交易平台往往会对这些记录进行积累,并在不同的交易平台之间进行互通、共享和融合,从而形成交易的“大数据”。计算机凭借深度学习能力,形成可用信息,并智能化地针对不同群体乃至具体个人进行推送或定价。在Facebook泄密门事件中,Cambridge Analytica仅靠“趣味小测试”就拿到了32万名用户的授权,据此推断出5000万用户喜好,有针对性地设下桃色陷阱、推送诱导新闻、操纵总统选举等。此外,会员票价反而比非会员高、高档手机付费更多、商品搜索频次越多越贵等也是这类歧视的典型表现。这种歧视非常隐蔽,不易被人们察觉。即使觉察到,也不容易举证。