一基于信息处理的语义分类 1.如何处理语义分类和语义特征?目前,中文信息界对如何建造电子语义词典的问题,大家的看法不一致。但其中有两个部分大家都认为必须描写:一是事件内的关系,即动词为中心的事件框架,一般采用格框架的描述方法;一是动词前后所联系的名词语的语义分类和语义特征。这语义分类和语义特征如何处理?大家的看法和作法不统一,有三派:(1)语义分类派。目前已有的电子语义词典框架,对动词前后所联系名词语的描述大都采用语义分类的方法。(2)语义特征派。有个别有影响的机器翻译专家,如董振东先生提出“要摈弃‘分类’的观念,代之以属性给定的概念。”(3)结合派。多数学者主张将语义分类和语义特征描述这两种方法结合起来,以语义分类为主,用语义特征的描写来补充分类体系的不足。如说女人是“人物”类,这是语义分类;但女人又并非全部的人,所以只靠语义分类还不行,需在“人物”类之后标上“+女性”这一语义特征。又如说轮船、火车、飞机是“交通工具”类,这是语义分类;同时在轮船之后标上“+水上”这一语义特征,在火车之后标上“+陆地”这一语义特征,在飞机之后标上“+空中”这一语义特征。清华大学计算机系和中国人民大学语言文字研究所联合开发的《现代汉语述语动词机器词典》就是采用这种语义分类和语义特征描写相结合的方法。 2.语言信息处理对语义分类的要求。根据计算机识别语言的需要,语义研究务必形成系统。这系统可以表现为语义分类“树”,也可以表现为语义网络。语义分类“树”和语义网络的同与异在于:一个上位节点可以有几个下位节点,这是语义分类“树”和语义网络相同的地方。一个下位节点只能有一个上位节点,这是语义分类“树”;一个下位节点可以有几个上位节点,这是语义网络。由此可见,在计算机中,反映上、下位语义关系的层级结构需用一种特殊的语义分类“树”来表示,而语义分类“树”上的节点之间有种种关系,其中有一种是上下位关系。上位是父节点,下位则是子节点。父节点下可有若干个子节点,子节点上只能有一个父节点。子节点具有父节点所具有的全部属性,但还必须比父结点至少增加一个属性。 使语义分类形成“树”型的语义分类系统存在着许多难以克服的困难。尽管计算机急需语义分类成为概念“树”,但迄今为止未见有人把一种自然语言的语义分类系统完全用“树”形结构表达出来。语义分类在语言信息处理中占有十分重要的地位,它具有使描述简洁和可以揭示概念之间的蕴含关系等优点。 3.《九○五工程》的语义分类系统。《九○五工程》是著名语言信息处理专家陈力为院士主持的国家“八五”重大科研项目,其中有一个语义小组,这个语义小组的语义研究内容之一是语义分类。其语义分类系统是二分:运动类、事物类。他们认为,计算机识别句子首先是抓住句子的核心,即谓语动词,然后考虑动词所连带的前后名词语,因此一是运动,一是事物。 (一)运动类。运动类即动词的分类。《九○五工程》根据动词在组合框架中的语义特征加以分类。语义单位组织起来便发生语义关系,语义关系一方是语义角色。语义角色分中枢角色和外围角色。中枢角色即为运动类,代称为V。对中枢角色进行分类也就是对动词及“可谓形容词”(不包括“非谓形容词”和“区别词”)进行分类。外围角色由名词、代名词充当,代称为N。动词能搭配名词的性能叫带N性。具体一个动词能具有哪些带N性取决于该动词的“语义特征”,反过来说,考察一个动词的“语义特征”则从该动词具有什么带N性的角度进行考察,也就是从该动词具有什么外围角色的角度进行考察。 从主体涉及客体的“及物性”的角度考察谓词的语义特征,再根据谓词的“语义特征”对谓词(包括动词和可谓形容词)分为四大类、24小类。第一大类“状态”和第二大类“关系”属于静态,第三大类“变化”和第四大类“行动”属于动态。静态和动态上面就是“运动”。所以整个分类系统包含四个层次:第一层次是“运动”;第二层次是“静态”和“动态”;第三层次是“状态”“关系”“变化”“行动”;第四层次是24类:“存在”“性状”“心态”“感知”“引起”“类属”“领属”“包括”“关联”“自变”“促变”“自进”“促进”“自移”“搬移”“自为”“支配”“给予”“获取”“创造”“对待”“考察”“传信”“遭遇”。这24类的分类依据是句模。何谓句模?为了说清楚句模,试结合句型、句式来说。句型也罢,句式也罢,句模也罢,都属于句类。句法学对句子的分类叫句型,语义学对句子的分类叫句模,语用学、修辞学对句子的分类叫句式。根据谓词所能连带语义角色的能力可以分出若干的句模,能进入同一句模的谓词是一类。句模是谓词分类的测试框架。 (二)事物类。《九○五工程》的事物分类系统将“事物类”分为5类:事;物;时间;空间;属性。每一类都是一棵多叉层级结构树,树上的节点分叶节点和非叶节点。树的各个枝杈深浅不等,有的枝杈节点多,有的枝杈节点少。下面是事物5类的纲目(省略了“甲、乙……”下的分类细目):