汉语知识词典及词汇内部语义描述研究 董振东 一、研究进展 本子课题研究的主要内容包括两部分: (1)在已有的知识词典的基础上,为每一个多义义项填写5个或更多的例子。 这部分以工程实施为主。自本课题于1998年中期正式展开以来,已完成对逾万条义项的填写。同时在此过程中也对已有的语义词典的语义描述进行了校正和修订。虽然现有的例子在量和质两个方面尚有改进和提高的余地,词语义项的语义描述也有进一步修正和完善的需要,但经过半年多期间中港台三地一些学者的试用已显露出它的实用性,也反映出它语义描述的深度。 (2)汉语两字或多字格词语各组成部分间的语义关系模式的研究。 这部分以学术探索为主。一年多来本课题组内部举行过几次讨论,也对国内其他学者在这方面已做过的研究进行了学习和考察。但迄今为止我们尚未就模式的基本单元、组成方式、描述方法等得出明确的意见。 2.歧义排除的新机制和新资源 信息处理用现代汉语词汇语义研究和语义词典的建立务必着眼于应用。我们的知识词典和正在进行的工程建设,正朝着成为一种歧义排除新机制的新资源的方向发展。这种歧义排除的新机制的特点是:1 )适用于大语境,而不只是限于一个句子的范围内。实践证明句群比单一的句子会有更好的效果;2 )对于绝大多数的多义义项的判别将是免除规则的,而不再是为每一个义项去写若干条规则。以往的实践证明写规则不仅十分辛苦,更主要的是规则通常是很硬性的,加之词条的属性描述很弱,进而导致规则难以表达或判别失败可能性高;3 )基于上述机制的算法将在很大程度上可以是不依赖于特定语言的,只要具有同样的象《知网》那样的资源,算法就可以由不同的语言共享。这将是歧义排除的一种革新。 这里我们不妨来看一个实例。在下面这段报道文字[1]中, “举”和“案”两字是多义的,需要排歧。 台南县新化警分局刑事组小队长林文政昨天下午举枪自戕后,其生前同仁、好友莫不掬起同情之泪,在一片惋惜声中,认为林小队长之作法实在太傻了,因为是非曲直,法曹自有明断,又何必自寻短见。林小队长对涉案之事一直不愿多谈。在我们的词典里“举”有7个义项,其记录如下: NO.=044197NO.=044209 W—C=举 W—C=举 G—C=ADJ G—C=N E—C=~国欢腾,~世无双,~世瞩目,~国志哀, E—C =~~家迁移动,壮~,义~,此~,~措 DEF=aValueㄧ属性值,rangeㄧ幅度,allㄧ全 DEF=partㄧ部件, %factㄧ事情,# actㄧ行动 NO.=044201NO.=044215 W—C=举 W—C=举 G—C=VG—C=V E—C=选~,推~,~贤,~荐,保~ E—C=~义, ~ DEF=chooseㄧ选择 DEF=startㄧ开始 NO.=044205NO.=044204 W—C=举 W—C=举 G—C=VG—C=V E—C=~起手中的金杯,~重,~过头顶,高~旗 E—C=~办,~行 帜,~手发言 DEF=liftㄧ提升 DEF=doㄧ做 NO.=044213 W—C=举 G—C=V E—C=~例,~一反三,列~,~一件小事说明你的看法,~出几条古注证明我的判断 DEF=quoteㄧ引用 词典里的关于义项的每一个记录都包括如上所列的各项:义项序号(NO.),汉语词语形式(W—C),汉语词性(G—C),汉语例子(E—C),语义定义(DEF)。 在上面这段文字中“举枪”的“举”应属于哪一个义项?新的排歧装置的一个机制是:1)用“举枪”去与7个记录中所给出的例子进行比较;2)当没有查到时,把“举枪”的“枪”分离出来,分别去跟记录1中的“国”“世”等,记录2中的“动”“措”等,记录5中的“金杯”“旗帜”等,以及记录7中的“例”等进行比较, 于是我们将会发现“枪”与记录5中的“金杯”“旗帜”的语义距离是最小的。 这样我们就可以确定文中的“举”的义项应是:“liftㄧ提升”。 至于“案”字,由于词典未包括“涉案”,因此“案”字也是多义的。在我们的词典里“案”有5个义项,记录如下: NO.=000814NO.=000824 W—C=案 W—C=案 G—C=NG—C=N E—C=有~可查,备~,教~,记录在~,~卷, C=~子,~头, 无~可寻,文~ 条~E— DEF=documentㄧ文书 DEF=furnitureㄧ家 具,@putㄧ放置 NO.=000825NO.=000817 W—C=案 W—C=案 G—C=NG—C=N E—C=提~,议~ E—C=惨~, 公~,~例 DEF=textㄧ语文,$proposeㄧ提出,$discussㄧ DEF=factㄧ事情 商讨,$debateㄧ辩论 NO.=000821 W—C=案 G—C=N E—C=凶杀~,铡美~,施公~,办~,~例,破~,~情,~子