自然语言处理就是研究计算机处理自然语言的过程和方法,包括形式化、算法化、程序化、实用化等步骤,其中建立语言的形式化模型,使之能以一定的数学形式表示出来,是自然语言处理的核心。自然语言处理经历了从知识驱动到数据驱动的不同发展阶段:语言知识的获取最早是基于语言学家的规则描写,即根据语言学规则来编写程序,然后发展到基于统计,即从大规模真实语料库中获取语言知识,近些年发展到基于神经网络,通过深度学习,让计算机自动获取自然语言的特征。人工智能现在已经发展到第三代,已经来到了一个重要的拐点,其路径是融合第一代知识驱动和第二代数据驱动,自然语言语义的精准理解因而成为人工智能皇冠上的明珠。 计算机要能实现准确的分析,就要具备相应的语义以及语法等知识,以及相应的常识知识和推理能力。建立句法、语义知识库之类的语言知识资源,并且映射到知识图谱之类通用的形式化的语义表示框架,可以帮助计算机理解自然语言的意义,并且在一定程度上进行常识性知识推理;相反,如果同相关的知识没有牵扯,仅仅是统计方法、机器学习,计算机就不能达到对相关语言、概念的深刻理解。面向自然语言处理的知识库可服务于自动分词、词性标注、句法分析、语义分析、机器翻译、信息提取、情感分析、文本摘要和问答系统等多个领域。构建相应的句法语义知识库成为当前自然语言处理的重要任务,而缺乏形态标记的汉语,建立相关的知识库显得更加迫切。 本文主要分析汉语句法语义知识库构建的理论基础、具体内容、特色优势,并提出未来句法语义知识体系研究方面的几点思考。 二、国内外基于不同理论框架的知识库构建 现阶段,语言知识库主要包括现代汉语语法信息词典、大规模现代汉语基本标注语料库、平行语料库、英汉和日汉对照双语语料库、多语言概念词典、现代汉语短语结构规则库等,此外,还有为上述语言知识库服务的不同种类的工具软件,这些最终构成了综合型的语言知识库。 如果要展示词汇概念,并且描述概念和概念之间,以及概念和属性间关系,就需要文本语义了,也就是需要重新构建语义知识库。近年来,国内外比较流行的语义知识库在设计方面各具特点,但都是依据一定的语言学理论构建起来的。例如,美国普林斯顿大学WordNet知识库,将语义上紧密联系的相关词汇聚合成同义词集;美国科洛大学的VerbNet知识库,以Levin的动词分类作为理论基础,描述不同类别动词的论元结构;宾西法尼亚大学的Chinese PropBank知识库,借鉴了PropBank的理论和描述框架;纽约大学的NomBank知识库,借鉴了PropBank,Nomlex项目及支撑动词有关研究;Chinese NomBank知识库就是将英语命题库以及英语NomBank常规架构,用到了中文名词化谓词标注当中;我国台湾地区词库小组的Sinica TreeBank知识库,运用了中心语主导原则和依存语法理论;上海师范大学与山西大学联合构建的Chinese FrameNet,运用了框架语义学的理论;北京大学中文网库是在配价语法基础上提出了论元结构理论,并将这一理论运用于知识库构建;清华大学、北京大学、鲁东大学的事件描述块句法语义标注库,运用了格语法和配价语法理论。 以上语义知识词库为计算机实现自然语言的语义理解提供了可能性,但是也存在一些缺陷。比如,WordNet往往会将词语之间的组合关系以及语句段落里面共现的关系忽视掉,VerbNet知识库将动词当作核心,这样就不能够妥善地处理和解决情景式事物指称的问题,FrameNet无法准确地掌握相关词汇概念在具体语句段落里面的最常见的共现关系;ConceptNet虽然被计算机赋予常识经验,但缺少句子和语篇间的组合推断。那么,如何解决像“网球问题”等事物间情景联想的有关问题?计算机如何模仿人类进行常识推理和句法组合?一些语言学家作出了积极深入的探索。 三、基于生成词库和论元结构理论的汉语句法语义知识库 最近,北京大学袁毓林教授团队基于生成词库论和论元结构理论,对汉语实词进行了句法语义知识挖掘构建,编写了《现代汉语实词语法语义功能信息词典》(以下简称《实词信息词典》)。 1.主要内容 《实词信息词典》不仅充分地描写了动词和形容词的论元角色及其句法配置,还描写了名词的物性角色及其句法配置,把汉语有关的句法、语义及相关的常识知识纳入词项的句法、语义描述中,从而在体词和谓词之间形成了具有链接性的语义网络和句型体系。 《实词信息词典》是一个综合型的语义知识库,可以服务于自然语言处理。词典的主要内容有现代汉语常用实词的语义角色、主要句型、经典例句等。同时,还有一个配套信息检索系统,可以快速、准确地检索到所需要的信息内容。该词典由“汉语动词句法语义功能信息词典暨检索系统”“汉语形容词句法语义功能信息词典暨检索系统”“汉语名词句法语义功能信息词典暨检索系统”这三个子系统构成。该词典为实词设计了一套前后一致、互相照应的语义表示框架,揭示它们之间语义角色关系;加入情感评价色彩的描写,由此形成了相对完善的汉语语义知识体系。这一体系具有很大的优势,基于该体系,可以形成相应的语义知识库,其中具备了面向对象、可扩展的特点。特别重视语义角色,即词语之间的搭配关系和选择限制,并配有相关句型和习惯搭配。将语言知识纳入到知识图谱当中的方式,可以让人们更加容易也更加深刻地理解AI的含义。 知识库里面的每个实词的构成都是有两个部分,一个部分是语义角色,也被称作物性角色,另一个部分则是句法格式。词库生成需要有四种不同的物性结构,语义知识库则是在这四种不同的物性结构上进行了扩增,变成了10种不同的物性结构,分别是形式、构成、单位、评价、施成、材料、功用、行为、处置以及定位。这10种不同的物性结构一起组建成名词物性结构框架。这项研究针对动词、形容词等,建立了论元结构描写框架。在这个框架里面的内容主要有施事、经事、主事、与事、对象、工具、方法、原因、目标、时段、场合、起点、终点、途径等,共计22种动词语义角色。此外,还包括感事、与事、系事等合计9种形容词语义角色。利用句法格式就能够实现描写名词的物性结构与动词、形容词的论元结构的连接;并且还可以形成完整的句法语义接口知识,实现了在动态语境下意义浮现的解释和说明。这一知识库比其他语义知识库更加注重组合性、语义划分的精细化及语义结构,有利于计算机进行自动文本的常识性推理。