搜索引擎作为人们在海量网络内容中获取信息的主要渠道,每天承担着数以10亿计的搜索请求,俨然成为网络信息的“导航器”和“把关人”。面对如此大的用户群和如此高的使用频率,搜索引擎被赋予了足以型塑互联网用户认知与行为的力量,深刻影响着现实社会的政治、经济和文化。截至2015年12月,中国搜索引擎用户规模达5.66亿,使用率为82.3%。① 随着技术不断创新,搜索引擎应用不断丰富,如今的搜索引擎已经成为一个集百科字典、实况地图、视听点播、定向广告、线上购物、即时通讯,甚至在线图书馆于一身的超级“媒体”。②近年来,从欧盟对谷歌违反托拉斯法的指责,数码图库GettyImages公司对必应的侵权诉讼,到百度“魏则西”事件引发的伦理争议等等,引发了各界对搜索引擎的诸多訾咎和疑虑,也触发了我们对搜索引擎社会责任的考察与反思。 一、搜索引擎网站的演进脉络 (一)人工分类的导航式搜索引擎 1954年,美国海军在IBM701型计算机上实现了单机内信息单元词匹配检索,开启了数字时代信息检索自动化的序幕。1990年,搜索引擎的鼻祖Archie程序由加拿大麦吉尔大学(University of McGill)师生开发成功,实现了基于FTP(文件传输协议)的文件信息功能。Archie程序开启了异地联网信息搜索的先河,但专业、复杂的检索语法书写让普通用户望而却步。1994年,杨致远和大卫·费罗(David Filo)创建雅虎开启了搜索引擎大众化的时代。在很大程度上,雅虎提供的信息检索方式与传统图书馆资料查询十分相似,它借助人工的方式,将搜集到的各类网站按照特定的层次进行分类和排序,并以目录的形式编录到网站列表中。雅虎的出现,为人们获取网络信息提供了新的体验,用户通过雅虎提供的目录式导航进入各个门类的网站,网民只需记住雅虎的网址,就能找到自己所需的信息。1997年,雅虎被《今日美国》评为“内容最优良、实用性最高、最容易使用”的网络站台,直到现在其搜索模式依然深受部分网民喜爱。 在中国,1999年之前主要采用的就是这种人工分类技术。1998年2月,搜狐的前身——ITC爱特信信息技术有限公司率先推出分类目录搜索引擎,这个被称为“中国人自己的搜索引擎”、“雅虎中国版”的搜索引擎,拉开了中文搜索引擎发展的序幕。1999年3月,搜狐在分类搜索的基础上,推出丰富的特色频道,提供多种网络服务,发展成为综合性网络门户。此后,网易、新浪等门户网站也都推出了中文搜索引擎,北大天网开发FTP搜索功能,hao123网址之家开启上网导航服务。1999年9月,雅虎中国网站正式开通,保持了雅虎传统的功能设计,为网民提供分类目录搜索服务。 人工分类搜索引擎将这一行业引入公众视野,其缺陷也十分明显:首先是由人工搜集和整理网址,效率极低、涵盖面有限,在浩如烟海的网络世界里,单纯依靠人工分类整理的目录式搜索,在互联网信息爆炸式增长的今天,已经远远不能满足人们的信息需要;其次是由于不同人对于网站分类的理解不同,也会影响搜索结果的查准率,大大降低用户的搜索体验。 (二)机器检录的自动化搜索引擎 随着网络信息的生产和消费越来越活跃,网络信息量以惊人的速度更新和增长,人们对信息查找和定位工具的要求也越来越高。网络机器人程序的开发与实现,为搜索引擎的快速发展提供了技术保障,大大提高了搜索引擎的检索效率。这些被称作爬虫(Web crawler)或网络蜘蛛(Web Spider)的机器人程序开始取代人工,在网络中通过链接路径四处爬行,并自动抓取网页相关信息,完成对互联网网站结构及网页内容的收集和存储工作。随后,搜索引擎的索引程序会根据关键词对这些信息进行自动分类和排序,搜索引擎的效率和搜索广度进一步提高。 如果说雅虎的出现在搜索历史上具有开创性意义,那么1998年拉里·佩奇(Sergey Brin)和谢尔盖·布林(Larry Page)创办的谷歌搜索引擎毫无争议地成为机器自动检录的典型代表。这种搜索引擎的出现具有革命性意义。它颠覆了以往的人工分类方式,借助自动运行的网络机器人程序,收录信息范围更广、数据库更新频率更快、检索信息能力更强、搜索响应时间更短,大大提升了用户的使用体验。 在中国,2000年6月,百度公司改变了搜狐、新浪、263、TOM等网站提供搜索服务的运营模式,另立山头推出了向普通网民提供搜索服务的门户网站,开启了中国搜索引擎独立发展的新时期。2003年6月,百度已成为全球最大和中国网民首选的中文搜索引擎。随着图片搜索、新闻搜索、百度社区、百度百科等相继推出,百度不容置疑地发展成为中国最具影响力的独立搜索门户网站。百度的成功极大刺激了中国搜索引擎市场的发展,随后的“中国搜索联盟”、中搜等一批自主搜索引擎品牌相继推出,促进了中文搜索独立品牌的发展。 随着WEB2.0网络技术的出现和网络普及率的迅速提高,人们对搜索引擎的要求也在发生着改变。现有的搜索引擎已经不能满足网民日益增长的网络内容索取需求,主要表现为:第一,网民构成从精英走向平民,而现有的搜索引擎仅支持关键词或逻辑运算符组成的提问式搜索,并不支持自然语言的语义搜索;第二,传统搜索引擎属于关键词驱动性质的一次性问答模式,即用户的每次搜索都是一次独立的搜索行为,不能利用历史信息进行搜索,判断用户的兴趣与关注;第三,呈现方式单一、呆板,搜索结果返回的是一个长长的搜索结果列表,其中可能包含了数以万计的网页连接,这使受众陷入另一个信息迷航。