外国人汉字习得数据库的建设与汉字习得分析

作 者:
王骏 

作者简介:
王骏,上海交通大学国际教育学院(上海 200030)。

原文出处:
语言教学与研究

内容提要:

为全面系统地研究外国人学习汉字的规律,我们收集了30名非汉字文化圈零起点学习者一年内学习某初级教材所要求掌握的全部汉字后的实际掌握情况,建立了“外国人汉字习得数据库”。据此,我们分析了一系列的问题,包括:学习者掌握汉字认读与汉字书写的差异;正字、错字与别字在习得过程中的不同表现;汉字习得与字频、复现率、构词能力、笔画数、汉字结构类型、构字方式等属性的相关性,等等。在此基础上,提出了一些汉字教学方面的建议。


期刊代号:H1
分类名称:语言文字学
复印期号:2015 年 09 期

字号:

      一 研究背景

      “汉字难学”是对外汉语界的老生常谈。为了克服这一难题,近年来,学界从不同角度探索了外国人(尤指非汉字文化圈的学习者)学习汉字的规律。例如,冯丽萍(2002)、江新(2006)分析了汉字的笔画数、结构方式、频率、构词数等与汉字习得的关系;高立群等(2000)、吴门吉等(2006)及王骏(2009)研究了学习者因素与汉字习得的关系;哈丽娜等(1999)和郝美玲等(2005)研究了教学法因素对习得的影响;江新等(2004)、李蕊(2005)研究了留学生汉字习得的发展过程;江新等(2001)和柳燕梅(2009)的研究则涉及了学习者的学习策略。这些代表性的研究基本上覆盖了外国人汉字学习的各个方面。然而,要提出对“汉字难学”的有效解决方案,现有的研究却存在几个方面的不足:其一,针对形成每个汉字学习难度的研究,采用的都是抽样(往往不超过100字)的方法,既未能覆盖全体常用字或800甲级字,也未能覆盖某一初级教材所要求掌握的全体汉字;其二,因为全体初级汉字的习得不是一蹴而就的,而是往往要经历一个长达一年以上的过程,在某一特定时间点切入进行的问卷式调查或许并不能代表初级学习者真实的学习情况;其三,个体学习者的汉字认读能力和书写能力未必均衡,如果学习者在其中一个方面有所欠缺,那么从中介语理论的角度审视,也应当将其归为一种独特的习得状态。现有的研究受制于任务形式,很少同时涉及这两个方面。或许正是因为这些不足,目前的汉字教学研究仍停留在反复争论“文”和“语”的教学孰先孰后等很难去验证的问题的层面,而较为扎实系统的工作,比如在总体设计阶段制定汉字总表、汉字教学大纲及在教材编写中有意识地融入汉字教学的渐进性计划等,却仍告阙如,研究整体上缺乏突破性的进展。

      为了尝试解决上述问题,本课题组前后花费近4年时间,调查收集了30名非汉字文化圈的零起点学习者各自在1年时间内,完整学习某一初级精读教材后对其中所包括的全部汉字的实际掌握情况,建立了“外国人汉字习得数据库”(下文简称“数据库”),以期为广大研究者和教师提供一定的参考。①

      二 数据的收集与整理

      课题组所在教学机构开设汉语长期教学班,按照国内惯例,初级班为零起点学生开设,历时1年,分上下两个学期,实际教学时间为32周,精读课总计约256课时。初级班采用《博雅汉语——初级起步篇》(下文简称《博雅》,北京大学出版社,2005年)第Ⅰ册和第Ⅱ册为教材。该教材发行量较大,国内外使用较为广泛,具有一定的代表性。

      《博雅》上册30课课文,下册25课。我们手工统计了每一课的新出汉字,发现教材共要求掌握汉字1048字,因为任务设置合理性的原因剔除3字,实际统计的是其中的1045字的习得情况(《博雅》1045字列表见数据库附件1)。

      从数据上分析,《博雅》平均每课要求掌握19.0个新出汉字,最多的课要求30字,最少的11字,标准差为4.40,显示每课要求掌握的汉字数波动较大,且前期每课要求掌握的字数显著多于后期。应该说,这不太符合我们一般认为的循序渐进的学习规律,也许这在“随文识字”的教材设计中是难以避免的现象,下文我们也将分析这种分布状况对于习得的影响。

      从教材的选字情况看,使用郭曙纶(2013:48-51)提出的方法,可以统计得出,《博雅》1045字中,有1024字属于国家语委1988年发布的2500常用字范围(见数据库附件2),重合率为97.99%。而依据汉语水平考试中心编制的《汉语水平词汇与汉字等级大纲》的划分标准,则可以统计出《博雅》1045字中汉字等级分布情况如表1所示:

      

      数据显示教材所要求掌握的汉字符合“初级”标准,尤其是全部800个甲级字在教材中出现了725个。以上两种统计数据保证本研究所调查的汉字习得情况具有较大的普遍意义。

      对于学习者而言,《博雅》全部汉字的习得是一个历时1年的过程,适合采用纵向研究,而为了结论的普适性,我们又希望数据来源于尽可能多的学习者。因此,研究采用跟踪多名个体学习者后再汇总数据的方式展开。我们将1学年分为四个时间段,分别在第一、第二学期期中考试后、期末考试后这4个节点,采用纸笔测试的方式进行数据收集。若一名受试完成整个测试过程(4个节点共8套试卷),则该份数据生效,登记为数据01-30中的一个编号。8套试卷的代号和对应的内容如表2所示:

      

      试卷体例方面,认读卷(A卷,1A-4A见附件3)采用呈现单个汉字,请受试写出拼音并举一例(可以为生词、短语或句子)来说明其用法。例如:

      character pīnyīn word/phrase/sentence

相关文章: