中图分类号:B82-057 文献标识码:A 文章编号:1005-9245(2017)04-0093-07 所谓“大数据”,即“通过传感器、网络交易、电子邮件、视频、点击流,以及当前和未来可获得的其他数字资源产生的海量、多样化、复杂化、纵向或分布式数据集”,其具有三个突出特征:1.“海量数据的可用性”是不断被收集的;2.在云计算模型的海量存储系统中,利用快速计算、高数据率传输系统;3.存储和分析数据量的新兴复杂技术[1]。随着数据存储和挖掘技术的进步,人们开始关注大数据技术的伦理问题。其中,人们最为关注的焦点之一就是大数据技术的隐私权侵犯问题。无处不在的数据收集和分析能够对人们的行为和状态进行预测,这改变着我们的传统隐私观念。面对大数据时代的隐私问题,法律的解决方案显得局限且生硬,而伦理方法则不失为一条解决问题的捷径。 一、大数据技术“金字塔” 美国纽约市立大学计算机科学教授列夫·曼诺维奇(Lev Manovich)指出,在大数据世界中存在三类人:有意或无意创建数据的人,我们称之为“数据生产者”;具有数据收集能力的人,我们称之为“数据收集者”;具有数据分析技术能力的人,我们称之为“数据挖掘者”。曼诺维奇认为,这些群体形成了一个“金字塔”,金字塔的底部是数据生产者,而顶部则是数据分析专家[2]。 (一)数据的生产和收集 美国纽约大学信息法律研究所的艾拉·鲁宾斯坦(Ira Rubinstein)认为,数据是通过各种途径不断收集起来的,收集的数据量呈数量级递增。例如,在网络上是通过移动设备、定位跟踪系统、数据共享应用程序进行收集的。人们可以通过多种方式进行用户数据收集,如电子邮件、搜索记录、网络导航数据、语音和视频通信数据、图像管理和处理数据等。 然后,基于用户之间共享的个人数据,从热门社交网站生成Web2.0用户数据。美国印第安纳大学法学院教授尼古拉斯·特里(Nicolas Terry)把构建大数据的“数据”称之为“排出数据(Exhaust Data)”。他认为,“‘排出数据’是在无意中创造出了社交网络、网络搜索和其他在线行为的副产品”[3]。事实上,在所谓的物联网世界中,随着越来越多的电子设备的连接,智能环境交互也会急剧增加,大数据也将更多地从物联网中派生出来。例如,仅中国的新浪微博就有2.5亿用户上传和分享个人信息,每天更新的信息量更是多达1亿多条。数据的生产和收集为数据挖掘和数据分析奠定了坚实的信息来源基础。 (二)数据挖掘 数据挖掘是指从大量数据中提取出目标信息。数据挖掘的特别之处是:使用复杂的统计算法推导出先前无法辨识的新模式(New Patterns)。这些新模式可能会推导出新关联、新含义和新知识。 因此,我们可以想象,诸如社交网络和搜索引擎自身就蕴含着无尽的数据宝藏。例如,谷歌已经开始利用电子邮件数据、引擎搜索数据、翻译服务数据、地理定位数据等,进行事件评估和预测。仅脸谱网(Facebook)每天就能获取约十亿用户的个人上传信息。因此,我们应该看到:一方面,数据挖掘对社会具有积极意义;另一方面,数据挖掘也会对我们的生活造成巨大的隐私威胁,具有消极的一面。 (三)数据的分离识别和再加工 数据收集的优点之一是绕过对具体个体的识别,转而对数据进行分析。事实上,在收集之前,首先要对海量数据进行分离识别,这样能够保证个人的匿名和隐私。然而,现在人们已经形成了一套日益复杂的方法,即使用数据挖掘后获取的非个人数据,对已初步分离的数据进行再次鉴定[4]。 二、隐私的定义及其伦理规范原则 大数据伦理意蕴探讨中最为突出的就是隐私问题。然而,以往我们探讨该问题都是在缺乏统一的隐私概念界定和具体伦理规范原则下进行的。鉴于大数据时代数据的非私有化,我们应该重新审视大数据的隐私问题,应当公正对待和尊重个人的隐私。首先,厘清隐私的定义和伦理规范原则是我们进一步探究大数据伦理及其价值嵌入的首要条件。 (一)隐私的定义 隐私关涉个人与个人之间、个人与企业(组织)之间的关系。从词源上讲,拉丁文“Privo”就意为“抢劫”和“破坏”,以及对某人某事的剥夺,因而,隐私具有一种消极意义。从这个层面上讲,隐私也可以被定义为“不被他人剥夺个人所属事物的权利”,这说明人们自身是拒斥他人对某事物保持好奇心的。 美国华盛顿大学法学院教授丹尼尔·J·索乐(Daniel J.Solove)在《了解隐私》(Understanding Privacy)一文中说到,“隐私是人们自主决定是否把他们的思想、情感、情绪等信息传达给他人的一种正当权利”,隐私是一种隶属于行为、事物和信息的特性;同时,隐私也适用于有形和无形的事物。隐私并不仅限于传播领域。隐私问题涉及信息的收集和处理,以及强行信息询问过程中的侵犯事[5]。根据人类活动的不同类型,隐私问题也可能在不同环境中涌现。美国纽约大学信息法律研究所教授海伦·尼森鲍姆(Helen Nissenbaum)则认为,在抽象或纯粹个人层面并不能确立隐私的定义。隐私可以被定义为既定社会技术环境中对信息流的控制[6]。