知网和汉语研究

作 者:

作者简介:
董振东 董强 中国中文信息学会 通讯地址:100091 北京市海淀区厢红旗东门外1号8楼3门401号 Email:dzddong@public.bta.net.cn

原文出处:
《当代语言学》

内容提要:

本文较全面地介绍了知网,它是一个可用于自然语言处理的知识系统的知网,现已在因特网上公开发布。它的知识词典现包含汉语词语5万条和对应的概念6万多条,以及与之对应的英语词语5.5万条和概念7万多条。本文涉及有关建立网状关系语义的一些重要问题。作者也就知网对汉语研究的影响和启迪进行了较多的讨论,关键是如何建立汉语的语义句法。


期刊代号:H1
分类名称:语言文字学
复印期号:2001 年 08 期

字号:

      近十多年来,随着计算机本身以及信息高速公路的飞速发展,人们开始更加重视语义的研究以及大规模语义词典或大规模知识库的建设。例如普林斯顿大学的英语WordNet,微软的MindNet,欧洲有基于WordNet的EurowordNet,日本有电子辞书研究所(EDR)的日语和英语的概念词典,还有美国HPKB(High Performance KB)等等。其中WordNet早已上网供免费用于非营业性研究。今年年初我们的知网也已上网面世,同样也可免费用于非营业性研究。它的网址是:www.keenage.com。欢迎读者上网浏览,下载和使用,以及参加网上的论坛。

      1.知网概述

      1.1 知网的概貌

      知网包括下列数据文件和程序:

      (01)中英双语知识词典(08)概念的次要特征(3)

      (02)中文简体知识词典(09)动态角色与属性

      (03)中文繁体知识词典(10)词类表

      (04)概念的主要特征(1)

        (11)反义关系表

      (05)概念的主要特征(2)

        (12)对义关系表

      (06)概念的次要特征(1)

       (13)标识符号及其说明

      (07)概念的次要特征(2)

        (14)知网管理程序

      下面我们对上述各个文件做一简单扼要的介绍,以使读者对知网有一个概括的了解。

      1.1.1 知识词典

      知识词典是知网的基本文件或数据库。其中的中英双语知识词典则是最基础的数据库。它是中文简体知识词典和中文繁体知识词典的基础。现有的中英双语知识词典包含11万多个记录。每一个词语的概念及其描述形成一个记录。每一种语言的每一个记录都主要包含4项内容。其中每一项都由两部分组成,中间以“=”分隔。每一个“=”的左侧是数据的域名,右侧是数据的值。它们排列如下:

      W_X=词语

      E_X=词语例子

      G_X=词语词性 DEF=概念定义

      知网知识词典词语条目举例:

      NO.=005756

      NO.=092273

      W_C=病

      W_C=医生

      G_C=N G_C=N

      E_C= E_C=

      W_E=disease

      W_E=doctor

      G_E=N G_E=N

      E_E= E_E=

      DEF=disease│疾病 DEF=human│人,[*]cure│医治,medical│医

      NO.=034930

      W_C=患者

      G_C=N

      E_C=

      W_E=patient

      G_E=N

      E_E=

      DEF=human│人,[*]SufferFrom│罹患,$cure│医治,#medical│医

      NO.=102368

      W_C=治病

      G_C=V

      E_C=

      W_E=treat a disease

      G_E=V

      E_E=

      DEF=cure│医治,content=disease│疾病,medical│医

      知网的规模主要取决于双语知识词典数据文件的大小。由于它是在线的,修改和增删都很方便,因此它的规模是动态的。它的规模通常以词语的条数以及由词语所表述的概念的条数计算。作为1.0a版,它的现有规模如下表所示。

      语种词语总量N范畴V范畴 A范畴

      汉语 050220

      026006 01663509763

      英语 055427

      028818 01668810705

      语种概念总量N范畴V范畴 A范畴

      汉语 062264

      029808 020453  

      011196

      英语 073131

      036720 021187

      014386

      注意:这里的N,V,A诸范畴不等同于句法上的名词,动词,形容词。另外要说明一点,汉语中的4字格成语,在知网中根据其意义分门别类地归在了不同的范畴内。例如“千军万马”归在N范畴,“雷霆万钧”归在A范畴,“奋发图强”归在V范畴等。

      1.1.2 概念的主要特征(1)

      概念的主要特征(1)载明知网所规定的事件类或称V范畴的主要特征,现有800多个,组织在一个层级网络中。例如:

      V1.02 possession│领属关系

       own│有 {relevant,possession}

      obtain│得到 {relevant,possession,source}

      receive│收受 {relevant,possession,source}

       BelongTo│属于 {relevant,possessor}

         OwnNot│无 {relevant,possession}

      lose│失去 {relevant,possession}

       InDebt│亏损 {relevant,possession}

       owe│欠 {relevant,possession,target}

      V2.02 AlterPossession│变领属 {agent,possession}

       take│取 {agent,possession,source}

相关文章: