用同义表达形式来扩充信息检索的查询语句例证研究

——对于一种基于语义的搜索方式的若干设想

作 者:

作者简介:
袁毓林,北京大学中文系教授。(北京 100871)

原文出处:
语言文字应用

内容提要:

本文首先分析基于关键词的搜索的困难(查询串的表达不忠和表达差异等),说明基于语义的搜索的必要性。接着,尝试通过对“意义”和“意义相同”的某种可操作的限制,来发展一种基于语义的扩充式关键词搜索方式:通过同义表达形式来抓住查询串的“意义”,并生成更多的检索串进行并发搜索。最后,规划怎样对汉语有关的同义表达进行全面深入的研究,并总结出若干识别查询串的同义形式的启发式规则。


期刊代号:H1
分类名称:语言文字学
复印期号:2008 年 09 期

字号:

      一、工作的定位:超越检索串的词汇形式

      搜索指在网络环境下,用户在计算机终端上输入一个检索串,来向网络查询自己关心的某项内容,以获取相关的信息。而搜索引擎系统则通过一定的信息搜集方式(比如,关键词匹配等),采集一批相关的网页或文档返回给用户。其中,检索串主要是自然语言的短语形式,用以表达用户的查询意图和要求;也可以称之为查询串,或查询短语。对于基于关键词检索的搜索方式来说,搜索(引擎)系统不必“理解”用户给出的查询串所表示的意义;径直通过一定的算法,把包含查询串的有关网页或文档返回给用户。比如,用户输入查询串“景德镇御器厂”,搜索引擎Baidu(百度)返回:

      a.题为《明代后期景德镇御器厂匠役制度的变化》《浅谈明代后期景德镇御器厂的龙缸制作》等文章,因为这些文章的标题中就有跟查询串完全一样的短语;

      b.《景德镇陶瓷》《瓷都风情》《杂碎新闻联播》《lanyanqi的博客》等文章或网页,因为这些文章(或网页中的文章)中有跟查询串完全一样的短语;

      c.《文化共享——御器厂》《千年景德镇》等文章,因为这些文章中有跟查询串比较接近的“明洪武年间,朝廷在景德镇专设御器厂”和“明朝建国的第二年,景德镇就设立了御器厂”等字符串。因为查询串“景德镇御器厂”中的“景德镇”和“御器厂”都是比较专门的名词,所以检索结果比较令人满意。如果换成比较一般的常用名词,情况可能就大不一样了。比如,用户输入查询串“诚信的故事”,搜索引擎Google返回:

      a.题为《诚信的故事》《一个关于诚信的故事》等文章或帖子,因为这些文章(或帖子)的标题跟查询串完全一样,或包含着跟查询串一样的短语;

      b.题为《诚信故事》《诚信小故事》《共铸诚信小故事》《中国古代诚信小故事汇编》等帖子或网页,因为这些帖子(或网页)的标题跟查询串比较接近,或包含着跟查询串比较近似的短语;

      c.题为《天大举办“诚信故事”晚会》《诚信通故事:悄悄地“成交”!》等跟查询目标无关的帖子,因为这些帖子的标题中包含着跟查询串比较近似的短语。

      在某种程度上说,这种搜索方式是基于检索串的词汇形式的。于是,如果用户输入的检索串中的词汇跟目标文本中的相关词汇不一致,即同义不同形;那么,返回的检索结果就不可能是用户所希望的。最终,影响了信息的查准率和查全率。比如,用户输入查询串“奥运标志”,基于关键词的搜索引擎就可能遗漏包含“奥林匹克运动会(的)徽标、五环图”等关键词的相关文档。其中,括号表示词语的出现与否,不影响检索结果。

      在这种情况下,人们自然会希望搜索引擎系统能够超越词汇的形式,“理解”检索串的意义,进行基于语义的搜索。对于基于语义的搜索过程来说,首要的一步是:搜索(引擎)系统必须“理解”用户给出的检索串所表示的意义;因为,至少在用户的心目中,这意义里面理所当然地包含了用户的查询意图和要求。但是,要让一个计算机系统去理解用户用自然语言的短语形式表达的查询请求的意义,这几乎是不可能的。原因至少有三个:第一,什么是意义?什么是一个短语(或词和句子)的意义?这在哲学、逻辑学和语言学上都没有统一的认识;于是,怎样才算“理解”了有关查询短语的意义,这本身又是不明确的。第二,用户输入的检索串往往是一种极为简略的短语形式,并不一定能准确(无误)、清晰(无歧义)地表达出他的查询意图,即词不达意或表达不忠实(于意义)。第三,对于相同的查询意图,不同的用户输入的检索串在语言形式上可能差别极大,往往采用了不同的表达方式,即表达差异或同义歧形。(注:关于第二、三两点,参考陈沛(2005)第25页。)比如,用户输入查询串“三千常用英语单词”,搜索引擎Google返回:

      a.《最有效的英语单词记忆方法》《背英语单词的五大捷径》《背单词的最科学方法》《潜移默化学英语》等文章;

      b.《中国考试在线》《中图读者俱乐部》《解放军报网络版》《中企动力科技集团股份有限公司南京分公司》等网页。

      因为这些文章(或网页中的文章)的句子中断断续续地有查询串中出现过的词语。例如:

      在记忆英语单词时,……三千到四千这个等级,是非常常用的单词,……

      其实,用户想要的是一个“三千常用英语单词词表”。当我们用这个绝对准确无误的查询串检索时,Google返回的结果基本跟上面一样。究其原因,搜索引擎无法从这两个查询串上理解用户真正的查询意图和要求。换句话说,搜索引擎不能理解这两个短语的意义。因为,人们在语言交际时,说话人就是这样习惯于用相对贫乏的语言形式来传递相对丰富的意义;而听话人则通过隐喻(metaphor)、图式(scheme)等认知方面的概念结构(conceptual structure),合作原则(co-operation principle)及会话准则(the maxims of conversation)等语用原则,再加上世界知识(knowledge of real world)等常识,来补充和推导,从而识解(construe)出话语的意义内容(content of communication)和交际意图(intent of communication)。(注:参考Tai,James H-Y(戴浩一)(2005)。)显然,我们目前还不可能要求一个搜索引擎系统能达到这么高的智能水平。

相关文章: