为NLP创立模式,用HNC研究汉语

作 者:

作者简介:
林杏光,男,中国人民大学教授,主要从事语言学和计算语言学研究。 林杏光,中国人民大学 对外语言文化学院,北京 100872

原文出处:
汉语学习

内容提要:

本文介绍了HNC创立NLP模式的几点思路,论述了为什么要用HNC 研究汉语和如何用HNC研究汉语的问题。结论:用8个网络研究词语,用57个基本句类研究语句,这是用HNC研究汉语的一种方法。


期刊代号:H1
分类名称:语言文字学
复印期号:2002 年 08 期

字号:

      [中图分类号]H08

      [文献标识码]A

      [文章编号] 1003 —7365(2002)03—0013—06

      NLP是“Natural Language Processing”的缩写,是“自然语言处理”的英文对译。HNC是“Hierarchical Network of Concepts ”的缩写,是“概念层次网络”的英文对译。本文标题前半截的意思是,要让计算机处理自然语言,就要为计算机创立理解语言的模式;本文标题后半段的含义是,HNC是NLP的一种模式,它既可以用来处理语言,也可以用来研究语言,汉语研究工作者应积极开展基于HNC的汉语研究。

      §1 为NLP创立模式

      中文信息处理,目前正处在词语和语句处理的阶段。许嘉璐先生的《现状和设想》将中文信息处理的研究现状分为三个流派:第一个流派是以传统的计算语言学为基本理论的流派;第二个流派是HNC理论; 第三个流派是基于内涵模型论的语义分析。我希望三个流派互相学习,取长补短,团结奋进,为中国能成为未来中文信息处理技术发展的中坚作出各自的贡献。这里试对第二个流派为NLP 创立模式的思路谈几点认识。

      1.1 模式的定位问题

      我很重视定位问题,因为不管是研究什么,定位都非常重要。“理解”,这个概念很难定义,不同的学科对“理解”有自己的特殊认识。就是同在NLP这一科学领域,对“理解”也有不同的定位。

      ①据说有位女大学生在一位男大学生的书里夹了一个纸条:“花开堪折直须折,莫待无花空折枝。”男大学生好不容易才“理解”到女大学生夹纸条的意思是暗示他及时求爱,机不可失。

      ②传说有对恋人在女方家里相会,分手时天下起雨来。女方说:“下雨啦!”女方的意思是别走了,住在这里吧!男方却对女方的话“理解”成“下雨怎么办呢?”于是回答说:“我有雨伞。”说罢走了,使女方很生气。

      ③有一位外国朋友问一位外出回来的中国同志:“您到哪里去了?”中国同志回答说:“我打酱油去了。”外国朋友很惊异地问:“您为什么打酱油,它有什么罪,您为什么打它?”中国同志解释说:“‘打’是买的意思,打酱油就是买酱油。”

      ④美国会反对这个提议。这个“会”可理解为上连“国会”,也可理解为下连“会反对”。但在具体的上下文中只能有一种理解。

      ⑤前面来了一个人,(这个人)山东人长相,(这个人)秃脑袋,(脑袋)剃得挺光亮。括号内是代词所代或省略了的内容。

      上述5个例子,可分为两类:①和②为一类,其余为另一类。HNC不要求计算机具有理解第一类问题的能力,而是将书面语言的“理解”定位于第二类。第二类问题包括多义词义项的选择、词或短语的切分、代词所代或省略内容的确定。HNC 将这些问题概括为三重模糊:词的多义模糊、语义块构成的分合模糊、指代冗缺模糊。HNC 将消解三重模糊作为书面语言处理的初步标准,我认为这个定位是恰当的。因为目前计算机的硬件和软件水平有可能实现这个定位;另一方面,这个定位一旦实现,在语言信息处理史上是一个很大的进步,它将促使机器翻译、智能检索、信息过滤、搜索引擎等语言信息处理应用领域产生实质性的进展。

      1.2 在什么空间创立模式

      多年来,我和中文信息界的一些朋友们总是在语言空间上打转转儿。我们这么想,人之所以能理解语言,是因为人拥有语言知识和生活常识。要让计算机理解语言首先就要让计算机拥有语言知识。什么是语言知识呢?我们想无非是语法,语义,再加上语用吧。这种复制性的惯常思维总是设计不出便于计算机理解语言的好模式,原因是语言是一个无限的不确定集,计算机把握不住。HNC以扩散性的求异思维, 创新地跳到概念空间去创立语言理解模式。世界万物所占据的空间是物质空间,和物质空间相对应的是概念空间。语言空间是整个物质空间的一个子物质空间,跟语言空间相对应的一个小概念空间是整个概念空间的一个子概念空间。HNC正是在这个子概念空间上创立理解模式, 这个子概念空间不是一般所说的逻辑结构,而是反映语言内容的概念空间。反映语言内容的概念空间,其最基本的基元是有限的、确定的,那就是HNC 所发现的作用效应链的作用、效应、过程、转移、关系、状态等6 个环节加上判断。在这样的概念空间上创立的理解模式是有限的、确定的、封闭性的,它和众多的语言空间存在多种相互映射的形式,可以将无限的、不确定的语言描述到概念空间所创立的理解模式上去,计算机就有可能通过理解模式去把握无限的、不确定的语言内容。

      1.3 创立什么样的模式

      黄曾阳先生在《HNC 理论与自然语言语句的理解》这篇论文中指出:“自然语言理解的本质是概念联想脉络激活、扩展、浓缩、转换与存储的全过程运作。激活运作的要点是语句的理解;扩展与浓缩运作的要点是段落与篇章的理解;转换与存储的运作要点是记忆与学习。语句的理解显然是自然语言理解的基础,但这不等于说,任何一种形式的语句理解处理算法都可以成为自然语言理解的基础。要取得这一资格,就必须把语句理解定位于概念联想脉络运作全过程的激活。”黄先生的这段论述表明,HNC创立的理解模式是以概念联想脉络为纲的激活、扩展、 浓缩、转换、存储的语言感知过程的理解模式。

      HNC预计创立5个理解模式:词汇层面的理解模式、语句层面的理解模式、句群和篇章层面的理解模式、短期记忆和长期记忆的形成及相互转换的模式、自学习模式。目前,已经创立了两个理解模式,即概念表述模式和句类表述模式。这两个模式的目标是使计算机理解句子的类别(语义结构)和句子中各个词语的含义。

      自然语言理解的“理解”就是“认知”,要解决“认知”问题,不可能脱离语言的“理解”,要理解语言就要通过词语和语句的网络形式。HNC不但认识到了这一点, 而且还提出了一整套使词语和语句网络化的策略,而这些策略正是研究汉语的新思路和新方法。

相关文章: