音韵学中统计法的比较

作 者:

作者简介:
郑林啸(1973-),女,博士,讲师,主要研究方向为汉语音韵学。中国人民大学 对外语言文化学院,北京 100872

原文出处:
语言研究

内容提要:

对目前音韵学中所用的统计方法进行了全面的比较,分析了统计法在音韵研究中的必要性和可行性,强调了统计法的科学性,并从统计学原理、方法的引入、运用中的注意事项和统计法在音韵学运用中的优势和不足等方面对三种统计方法进行了详细的阐述。


期刊代号:H1
分类名称:语言文字学
复印期号:2004 年 12 期

字号:

      中图分类号:H11

      文献标识码:A

      文章编号:1000-1263(2004)03-0018-05

      一 引言

      现代语言学的研究比较注重信度和效度,信度主要是指研究的稳定性和可重复性,效度主要是指研究的解释性和可推广性,运用统计学方法可以使音韵学的研究更有信度和效度。有人认为统计法是一种数学方法,而音韵学属于社会科学,受到许多人为因素的影响,用数学来规范语言学所得结论未必正确。其实,结论正确与否不取决于统计结果,统计作为一种手段,只是对收集到的材料进行计算,提供分析的依据,重要的是收集整理语音材料以及分析结论的过程中必须正确地运用音韵学的原理和方法,比如反切比较、韵字系联等。

      统计法是使音韵研究更加科学化、现代化的一种有力工具,它利用精确的数字使研究资料量化,与音韵学的各种方法结合,可以使音韵研究更加准确、可靠。现在音韵学界广泛使用的算术统计,从统计学的角度分析还只是一种不完整的统计活动,不足以帮助我们完成通过量的分析以认识语言本质和规律的任务;真正统计学意义的完整的统计活动,在音韵学中的应用还不是很多,从方法论的角度对它进行分析介绍的文章则更少,它需要具有数理统计学的基础。数理统计学是数学的一个分支,由一系列的公理、定理以及严格证明来组成。它还涉及到数学的其它领域,例如微积分、概率论和高等代数等等。为了使这些理论也适用于一般研究者,人们将其简化,变得非数学化,由此产生了一般统计学。不同的专业领域(如建筑学、人类学、生物学等)与一般统计学结合,就产生了相应的专业统计学[1]p20。

      统计法在应用于音韵学时,由于处理数据的方法不同,音韵学者多将它分为:算术统计法、概率统计法、数理统计法三种。这些都是依据所用的计算方法和公式来区分的,是一般统计学在音韵学中的具体运用,而不是严格地统计学意义上的分类和命名。然而这种三分法和命名在音韵学界已经普遍应用,我们不想做较大的改动,仍是分为算术统计法、概率统计法和数理统计法三种进行比较。

      二 从统计学原理来分析

      算术统计法就是利用初等数学中的一些简单算法,计算出统计对象在各种情况下出现的次数、频率。算术统计法分为两类:数据罗列法和比例(频率)统计法。所谓数据罗列法就是直接罗列出搜集到的数据(点数),通过简单、直观的数字比较寻求研究对象的数量特征的方法。这种方法的罗列并不是将所有的数字不加分析地列出,用统计的术语来说,实际上是进行了统计描述的部分步骤,即:登记、审核、整理、分类,是不完整的统计活动,只是一种简单的分组法。最早使用数据罗列法的,是白涤洲先生的《广韵声组韵类之统计》一文,比例又叫频率,其统计学定义为:设事件A在n次重复进行的试验中发简之,频率便是部分在总体中所占的比值。在音韵研究中,常用百分数来表示。这种方法在当代音韵研究中运用最普遍,例如罗常培先生的《切韵鱼虞之音值及其所据方音考》、邵荣芬先生的《切韵研究》等。

      概率统计法,就是先假设某语音材料在音理上是何种情况,再利用概率论的一些基本原理和公式,计算出该语音材料各个类别在理论上的数值,然后再用实际数值与之比较,以确定前面的假设是否成立,得出正确的结论,而音韵学中的概率统计法实际就是几遇数统计在音韵学中的具体运用。

      数理统计法是以概率论为基础,有效地整理和分析带有随机性质的数据,对所观察的问题做出推断和预测,然后再用假设检验来最终判断语音的发展趋势和推测当时的实际情况。

      依据统计学的原理来分析,一个完整的统计过程可分为四个阶段:统计设计、统计调查、统计整理、统计分析。音韵学中的“算术统计法”只是数据分类和简单运算,只进行到统计整理阶段,为统计分析做准备,应属于未完成的统计工作。而“概率统计法”和“数理统计法”实际上都是以概率论为理论基础,之所以分为两种,只是依据其是否利用了假设检验,这由韵文材料的性质决定。

      三 从方法的引入来分析

      这三种方法引入音韵学研究中,目的都是为了避免随机误差。为了在研究反切材料时避免随机误差,引入了数据罗列法和几遇数统计法。为了在研究韵文材料时避免随机误差,引入了数理统计法。而比例统计法被认为是可应用于任何材料的方法。

      白涤洲先生认为,古人做反切会有两个毛病:一是“同类的字太少,随便假借相近的别类字作切”,再就是“用字时偶然忽略,误用近似而非同类的字作切”,“我们若不把有这种毛病的字视为例外,严格的依据他考订,态度虽是十分谨严,而实际上反失之呆板[2]。陆志韦先生认为“系联之法,病在唐五代之治韵学者用字如或偶尔疏忽,则切上字之本不系联者或因而系联焉。其本当系联者或因而不系联焉。此则方法之弊。”另外,“陈澧之错失乃在据又切而合并声类”,因为“《广韵》又切之性质尚未有详细考核之者。”[3]白涤洲先生和陆志韦先生所说的毛病和弊端,用统计学的术语来说,就是古人在造反切时存在着随机误差,这有可能是作者偶误,也可能是后人传抄时的笔误,还有可能是后人的妄改。当然,随机误差还包括其它一些情况。这种误差若在研究中不能避免,所得结论难免失当,例如陈澧用反切系联法研究《广韵》的声类,尽管其基本条例、分析条例、补充条例使这种方法有一定的科学性,但实现这种科学性的前提有两点:一是古人的反切无误;二是要将条例贯彻到底,运用一致,否则,用基本条例不能系联的,有的用补充条例归并为一类,有的又不用补充条例把它们分为两类,从而又产生新的误差。例如,唇音“帮”与“非”、“滂”与“敷”、“併”与“奉”分为两类,是因为陈澧没有用补充条例,而“明”与“微”并为一类是因为他用了补充条例。这就说明,反切系联法本身不但无法消除随机误差,反而可能在实际运用中产生新的失误。

相关文章: