近十多年来,随着计算机本身以及信息高速公路的飞速发展,人们开始更加重视语义的研究以及大规模语义词典或大规模知识库的建设。例如普林斯顿大学的英语WordNet,微软的MindNet,欧洲有基于WordNet的EurowordNet,日本有电子辞书研究所(EDR)的日语和英语的概念词典,还有美国HPKB(High Performance KB)等等。其中WordNet早已上网供免费用于非营业性研究。今年年初我们的知网也已上网面世,同样也可免费用于非营业性研究。它的网址是:www.keenage.com。欢迎读者上网浏览,下载和使用,以及参加网上的论坛。
1.知网概述
1.1 知网的概貌
知网包括下列数据文件和程序:
(01)中英双语知识词典(08)概念的次要特征(3)
(02)中文简体知识词典(09)动态角色与属性
(03)中文繁体知识词典(10)词类表
(04)概念的主要特征(1)
(11)反义关系表
(05)概念的主要特征(2)
(12)对义关系表
(06)概念的次要特征(1)
(13)标识符号及其说明
(07)概念的次要特征(2)
(14)知网管理程序
下面我们对上述各个文件做一简单扼要的介绍,以使读者对知网有一个概括的了解。
1.1.1 知识词典
知识词典是知网的基本文件或数据库。其中的中英双语知识词典则是最基础的数据库。它是中文简体知识词典和中文繁体知识词典的基础。现有的中英双语知识词典包含11万多个记录。每一个词语的概念及其描述形成一个记录。每一种语言的每一个记录都主要包含4项内容。其中每一项都由两部分组成,中间以“=”分隔。每一个“=”的左侧是数据的域名,右侧是数据的值。它们排列如下:
W_X=词语
E_X=词语例子
G_X=词语词性 DEF=概念定义
知网知识词典词语条目举例:
NO.=005756
NO.=092273
W_C=病
W_C=医生
G_C=N G_C=N
E_C= E_C=
W_E=disease
W_E=doctor
G_E=N G_E=N
E_E= E_E=
DEF=disease│疾病 DEF=human│人,[*]cure│医治,medical│医
NO.=034930
W_C=患者
G_C=N
E_C=
W_E=patient
G_E=N
E_E=
DEF=human│人,[*]SufferFrom│罹患,$cure│医治,#medical│医
NO.=102368
W_C=治病
G_C=V
E_C=
W_E=treat a disease
G_E=V
E_E=
DEF=cure│医治,content=disease│疾病,medical│医
知网的规模主要取决于双语知识词典数据文件的大小。由于它是在线的,修改和增删都很方便,因此它的规模是动态的。它的规模通常以词语的条数以及由词语所表述的概念的条数计算。作为1.0a版,它的现有规模如下表所示。
语种词语总量N范畴V范畴 A范畴
汉语 050220
026006 01663509763
英语 055427
028818 01668810705
语种概念总量N范畴V范畴 A范畴
汉语 062264
029808 020453
011196
英语 073131
036720 021187
014386
注意:这里的N,V,A诸范畴不等同于句法上的名词,动词,形容词。另外要说明一点,汉语中的4字格成语,在知网中根据其意义分门别类地归在了不同的范畴内。例如“千军万马”归在N范畴,“雷霆万钧”归在A范畴,“奋发图强”归在V范畴等。
1.1.2 概念的主要特征(1)
概念的主要特征(1)载明知网所规定的事件类或称V范畴的主要特征,现有800多个,组织在一个层级网络中。例如:
V1.02 possession│领属关系
own│有 {relevant,possession}
obtain│得到 {relevant,possession,source}
receive│收受 {relevant,possession,source}
BelongTo│属于 {relevant,possessor}
OwnNot│无 {relevant,possession}
lose│失去 {relevant,possession}
InDebt│亏损 {relevant,possession}
owe│欠 {relevant,possession,target}
V2.02 AlterPossession│变领属 {agent,possession}
take│取 {agent,possession,source}