《信息处理用现代汉语词汇研究》课题中期成果汇报(之二)

作 者:

作者简介:

原文出处:
语言文字应用

内容提要:

国家社科基金语言学科“九五”重大项目《信息处理用现代汉语词汇研究》第二次课题研讨会于1999年10月4日—10月7日在北京怀柔召开。全国人大常委会副委员长、课题组组长许嘉璐主持会议。国家语委主持工作的副主任朱新均到会听取了课题组的汇报并讲话。各子课题组负责人和主要参加者20余人参加了会议。 各子课题组首先汇报了1999年课题进展情况、存在问题及下一步的工作计划,随后进行了讨论。大家对各课题的难点和有争议的问题进行了讨论并达成了一致意见;大家还对某些课题提出了建设性意见。例如,《汉语文本短语结构的人工标注》课题的研究重点应放在短语边界的确定上,为短语的自动提取提供规则。许嘉璐在总结中指出:目前要进入结题倒计时,各课题要加强最后一年的集中研讨;课题规模和任务不要再扩大,要按原计划结题;各课题组要有结题文章或专著,将来汇集出版。 会议最后对两个影响全局需要先行的课题《信息处理用现代汉语分词词表》和《汉语词类及标记集规范》提出了具体结题时间。《信息处理用现代汉语分词词表》今年年底拿出定稿提供给其他课题组使用,2000年初召开审定会。《汉语词类及标记集规范》课题对征求意见三稿修改后,于今年11月底或12月初召开课题研讨会并在2000年初通过国家语委科研办的验收,然后召开课题审定会。其他课题的结题审定会也将在明年陆续安排。 国家语委科研办


期刊代号:H1
分类名称:语言文字学
复印期号:2000 年 06 期

关 键 词:

字号:

      汉语知识词典及词汇内部语义描述研究

      董振东

       一、研究进展

      本子课题研究的主要内容包括两部分:

      (1)在已有的知识词典的基础上,为每一个多义义项填写5个或更多的例子。

      这部分以工程实施为主。自本课题于1998年中期正式展开以来,已完成对逾万条义项的填写。同时在此过程中也对已有的语义词典的语义描述进行了校正和修订。虽然现有的例子在量和质两个方面尚有改进和提高的余地,词语义项的语义描述也有进一步修正和完善的需要,但经过半年多期间中港台三地一些学者的试用已显露出它的实用性,也反映出它语义描述的深度。

      (2)汉语两字或多字格词语各组成部分间的语义关系模式的研究。

      这部分以学术探索为主。一年多来本课题组内部举行过几次讨论,也对国内其他学者在这方面已做过的研究进行了学习和考察。但迄今为止我们尚未就模式的基本单元、组成方式、描述方法等得出明确的意见。

      2.歧义排除的新机制和新资源

      信息处理用现代汉语词汇语义研究和语义词典的建立务必着眼于应用。我们的知识词典和正在进行的工程建设,正朝着成为一种歧义排除新机制的新资源的方向发展。这种歧义排除的新机制的特点是:1 )适用于大语境,而不只是限于一个句子的范围内。实践证明句群比单一的句子会有更好的效果;2 )对于绝大多数的多义义项的判别将是免除规则的,而不再是为每一个义项去写若干条规则。以往的实践证明写规则不仅十分辛苦,更主要的是规则通常是很硬性的,加之词条的属性描述很弱,进而导致规则难以表达或判别失败可能性高;3 )基于上述机制的算法将在很大程度上可以是不依赖于特定语言的,只要具有同样的象《知网》那样的资源,算法就可以由不同的语言共享。这将是歧义排除的一种革新。

      这里我们不妨来看一个实例。在下面这段报道文字[1]中, “举”和“案”两字是多义的,需要排歧。

      台南县新化警分局刑事组小队长林文政昨天下午举枪自戕后,其生前同仁、好友莫不掬起同情之泪,在一片惋惜声中,认为林小队长之作法实在太傻了,因为是非曲直,法曹自有明断,又何必自寻短见。林小队长对涉案之事一直不愿多谈。在我们的词典里“举”有7个义项,其记录如下:

      NO.=044197NO.=044209

      W—C=举

      W—C=举

      G—C=ADJ G—C=N

      E—C=~国欢腾,~世无双,~世瞩目,~国志哀, E—C =~~家迁移动,壮~,义~,此~,~措

      DEF=aValueㄧ属性值,rangeㄧ幅度,allㄧ全 DEF=partㄧ部件,

      

      

      

      

      

       %factㄧ事情,#

      

      

      

      

      

      

      actㄧ行动

      NO.=044201NO.=044215

      W—C=举

      W—C=举

      G—C=VG—C=V

      E—C=选~,推~,~贤,~荐,保~ E—C=~义, ~

      DEF=chooseㄧ选择 DEF=startㄧ开始

      NO.=044205NO.=044204

      W—C=举

      W—C=举

      G—C=VG—C=V

      E—C=~起手中的金杯,~重,~过头顶,高~旗

      E—C=~办,~行

      帜,~手发言

      DEF=liftㄧ提升 DEF=doㄧ做

      NO.=044213

      W—C=举

      G—C=V

      E—C=~例,~一反三,列~,~一件小事说明你的看法,~出几条古注证明我的判断

      DEF=quoteㄧ引用

      词典里的关于义项的每一个记录都包括如上所列的各项:义项序号(NO.),汉语词语形式(W—C),汉语词性(G—C),汉语例子(E—C),语义定义(DEF)。

      在上面这段文字中“举枪”的“举”应属于哪一个义项?新的排歧装置的一个机制是:1)用“举枪”去与7个记录中所给出的例子进行比较;2)当没有查到时,把“举枪”的“枪”分离出来,分别去跟记录1中的“国”“世”等,记录2中的“动”“措”等,记录5中的“金杯”“旗帜”等,以及记录7中的“例”等进行比较, 于是我们将会发现“枪”与记录5中的“金杯”“旗帜”的语义距离是最小的。 这样我们就可以确定文中的“举”的义项应是:“liftㄧ提升”。

      至于“案”字,由于词典未包括“涉案”,因此“案”字也是多义的。在我们的词典里“案”有5个义项,记录如下:

      NO.=000814NO.=000824

      W—C=案

      W—C=案

      G—C=NG—C=N

      E—C=有~可查,备~,教~,记录在~,~卷, C=~子,~头,

      无~可寻,文~ 条~E—

      DEF=documentㄧ文书 DEF=furnitureㄧ家

      具,@putㄧ放置

      NO.=000825NO.=000817

      W—C=案

      W—C=案

      G—C=NG—C=N

      E—C=提~,议~

      E—C=惨~,

      公~,~例

      DEF=textㄧ语文,$proposeㄧ提出,$discussㄧ DEF=factㄧ事情

      商讨,$debateㄧ辩论

      NO.=000821

      W—C=案

      G—C=N

      E—C=凶杀~,铡美~,施公~,办~,~例,破~,~情,~子

相关文章: