计算机识别汉语语法偏误的可行性分析

作 者:
王洁 

作者简介:
王洁,暨南大学华文学院讲师,博士,主要研究方向为计算语言学(广东 广州 510610)。

原文出处:
语言文字应用

内容提要:

针对目前汉语中介语偏误人工标注缺乏一致性的问题,本文提出了计算机识别偏误的方法。首先参照《外国人学汉语语法偏误分析》一书中的类别体系,对计算机识别各类语法偏误的可行性进行了理论上的分析;然后基于规则方法,选择“比”字句、“把”字句、“被”字句三种特殊句型作为切入点进行了实验验证。经过面的分析和点的验证,得出结论:在偏误标注方面,计算机能够在一定程度上自动识别一些类型的语法偏误,其目标是辅助人工标注而非完全代替人,能较好地保证标注结果的一致性。


期刊代号:H1
分类名称:语言文字学
复印期号:2011 年 10 期

字号:

      汉语中介语语料库建设的重要任务是对其中存在的各种偏误现象进行标注。很多偏误现象在归类时存在歧义,即同一偏误实例既可归入A类,又可归入B类(甚至还可以归入其他类),这就给人工标注带来很大难度,即使事先制定详细的标注规范,标注结果的一致性也难以保证。

      偏误大多有规律可循,而且有些规律是可以形式化地表示出来的,这就为计算机识别偏误提供了可能性。如果计算机能在一定程度上自动识别一些类型的偏误,那么就可以对人工标注起到很好的辅助作用,在减轻标注者负担的同时可以较好地保证偏误归类的一致性。

      一 偏误的定性

      偏误的定性问题分为两方面:一方面是有多少类偏误,即分类问题;另一方面是某一具体偏误实例应归入哪一类,即归类问题。

      偏误的定性存在主观性。

      首先,分类的主观性。不同的研究者收集到的资料不同、考虑的角度不同,归纳出来的类别在数量及层次上就很难达成一致,甚至大相径庭。举例来说,鲁健骥(1994)将语法偏误按性质分为遗漏、误加、误代、错序四大类;“HSK动态作文语料库”(下文简称“HSK作文库”)划分了字、词、句、篇、标点等大类,然后各大类又有小类,其中字、词、标点等主要从形式上的多余、缺失、误用的角度来划分小类;《外国人学汉语语法偏误分析》(李大忠,1996,下文简称《偏误分析》)只关注语法偏误,直接给出了30个具体的语法项目,涉及虚词、动词重叠、特殊句型和补语四个方面;《汉语病句辨析九百例》(程美珍,1997)分为词法、句法、标点符号三方面,其中词法方面是按词类来划分小类的,如名词的误用、代词的误用、动词的误用等,句法方面包括词组的误用、句子成分的误用、单句的误用、复句的误用、特殊句型的误用等,标点符号分为点号的误用和标号的误用。

      其次,归类的主观性。某一具体的偏误实例往往存在多种归类的可能,如“你把你的学习方法能不能给我们介绍一下儿?”在《汉语病句辨析九百例》中属于能愿动词误用,如果将其算作语序不当或“把”字句使用不当也是合理的。

      理论上如何对待偏误的定性问题,实践上如何确立一个较好的偏误类别体系并进行偏误归类,都是值得深入研究的问题。本文首先从语法偏误入手,参照《偏误分析》一书中的类别体系,对计算机识别各类语法偏误的可行性进行理论上的分析;然后,选择“比”字句、“把”字句、“被”字句三种特殊句型作为切入点进行实验验证。目标是结合面的分析和点的实验来论证计算机识别语法偏误的可行性。

      二 计算机识别语法偏误的理论分析

      《偏误分析》全书30章对应了30类偏误项目,前19章是与虚词有关的偏误项目,第20章是与动词重叠有关的偏误项目,第21到25章是与一些特殊句型有关的偏误项目,第26到30章是与各种补语有关的偏误项目。

      由于篇幅所限,仅以虚词中的“才”(书中第1章内容)为例来说明我们的分析。

      对于与副词“才”相关的偏误,《偏误分析》总结了5小类:

      第1类

      ①别着急,你在家考虑考虑才决定吧。①

      ②这是我从中国寄出的最后一封信。下一封信等我到巴基斯坦才写吧。

      ③那个人说:“公主病了,因此今天不能开招待会了。等公主治好病才安排吧。”

      ④我有很多话要对你说,真是一言难尽,等我回到家时才当面对你说。

      以上各例“才”都应为“再”。从形式上看,①~③的句末标点前都出现“吧”,这可以作为一个形式标记来发现此类偏误,因为副词“才”很少跟语气词“吧”共现。我们对《人民日报》的语料(1993、1994、1996-2000年)进行了检索,发现只有6句“才”跟“吧”共现,见例(1)~(6)。这6句也可以找到形式上的共同特点,即都是设问句,前文会出现“恐怕”“也许”“大概”等表示假设的词,或者句末出现“?”。由此计算机可以发现例句①~③有问题并进行修改,即将“才”改为“再”。例句④缺乏形式标记,计算机无法发现偏误。

      (1)遗憾的是产量不多,也许正因为稀少,才更显珍贵吧?

      (2)恐怕正是因为时下的“有偿评奖”泛滥成灾,他们担心人们误以为申请孙冶方经济科学奖也要收费而置之不理,才“多此一举”吧。

      (3)那样才不枉一世吧?

      (4)大概就是因为这才叫“丝”酱豆吧。

      (5)也许,人有了一定阅历,且具有了敢于自我解剖的修养,才不屑于去掩饰自己的过错吧。

      (6)才发出如此感叹的吧?

      第2类

      ①昨天晚上我感冒了,九点才睡觉。

      ②这篇课文不太长,我一个小时才看完了。

      以上两例“才”都应为“就”,副词“才”的用法之一是表示事情持续时间长或发生得晚;与之相对,副词“就”的用法之一是表示事情持续时间短或发生得早。计算机要识别此类偏误,需要具备常识,即句子中某个或某些词语反映的现实需要持续的时间段或应当发生的时间点,以此同句中的时间段、时间点进行比较,决定是长是短或是早是晚。而这种常识是很难形式化的,计算机不易获得。首先,时间是一个相对的概念。比如“他明天~能到。”句中“~”的位置填“才”或“就”都可以,这取决于说话者认为“明天”是早还是晚;再比如“一百年”这个时间段对人的一生而言是一个很长的时间,而对于人类历史而言又是一个很短的时间。其次,常识无法穷尽。例句①隐含的常识是:感冒应该早睡觉;如果其中的“感冒”换成别的词语,如“复习功课”,其隐含的常识是:复习功课比较费时间,应该晚睡觉;再如“喝咖啡”,其隐含的常识是:咖啡有提神的功效,喝了咖啡应该晚睡觉。例句②也有同样的问题,其隐含的常识是:课文不太长,应该花较短的时间看完;如果“不太长”换成“不太容易”,隐含的常识是:课文不太容易,应该花较长的时间看完。由此可知,计算机很难发现此类偏误。例句②出现了“‘才’+动词+‘了’+句末标点”的结构,该结构比起“‘就’+动词+‘了’+句末标点”的结构要少见得多,但汉语中确实存在,见例(7)~(10)(出自《人民日报》)。

相关文章: