英汉词库中的元音频率比较

作 者:

作者简介:
端木三,四川成都人,博士,美国密歇根大学教授,研究方向主要是语音和音系,以及它们跟词汇、句法和语义的关系,E-mail:duanmu@umich.edu。

原文出处:
语言教学与研究

内容提要:

英语和汉语(普通话)词库中的元音频率比较,尚未见到前人有所讨论。本文探讨其中所牵涉到的一些理论问题,如国际音标的选择、轻声音节的判断、双元音是否应该切分,并比较几种统计方法。研究发现,英语和汉语中介音的出现率都不高,对统计元音出现率影响不大。英语的最高频元音是,其原因是,英语有大量多音节单词,其中多数都有轻读音节,而轻读音节的元音一般都是。在英语和汉语的非轻读音节中,高元音的总出现率跟非高元音基本相等。英语高元音中,前元音出现率高于后元音、紧元音出现率高于松元音。


期刊代号:H1
分类名称:语言文字学
复印期号:2020 年 08 期

字号:

      

      二、英语元音统计

      本节先介绍英语语料,然后介绍初步统计结果。接下来讨论双元音是否应该切分、国际音标的选择问题、轻读元音的音标、介音的处理以及最后结果。

      2.1 英语语料

      我们使用的英语语料是CELEX电子词典(Baayen et al 1995)。该词典记录的是英式英语。CELEX有两个词库,分别是“词形词库”(word-form lexicon)和“基本词库”(lemma lexicon)。前者有词条160595项,包括了复数、时态及所有格,因此,每个名词可能出现四次,每个动词也可能出现四次。比如名词“银行”可以有bank(单数)、banks(复数)、bank’s(单数所有格)、banks’(复数所有格);动词“考虑”可以有consider(无时态)、considered(过去式)、considers(第三人称现在时)、considering(进行时)。“基本词库”不包括复数、时态、所有格,减少了重复,共有词条52447项。由于汉语词库不包括复数和时态,我们选择了CELEX的基本词库,这样更加便于两个语言的比较。

      CELEX的基本词库中有相当一部分是复合词、短语或缩略语,可以通过词条中的空格、横线、句点、省略号来辨认,我们将其一律排除。同音词我们则一律保留,如hide(隐藏,动词)和hide(皮革,名词)。语义语音相同但词类不同的词条我们也一律保留,如face(脸,名词)、face(面向,动词)。最终的有效语料共计41798词条,其中的音节共计109930个。

      2.2 初步结果

      CELEX共分24个元音,其中的四个鼻化元音只见于外来词。它们的出现频率从高到低排序见表1。根据这个结果,频率最高的元音是[I]。

      

      2.3 双元音是否应该切分?

      传统文献习惯将每个双元音当作一个音。主要理由有两条。第一,每个音节只有一个元音,而每个双元音只属于一个音节。第二,双元音当中没有明显的界限,语音上划分起来有困难。根据这两条理由,常常还有人把三元音,如[iau]、[uai]等,也作为一个音处理,如Lee & Zee(2003)。不过,从音系学的角度来看,双元音、三元音都应该进一步切分成单元音。

      首先,从押韵的规则来看,三元音的第一部分不属于押韵的要求,应该跟后面的双元音分开。比如,汉语的“要”和“到”押韵,其中的相同部分是[au],英语称为thyme(韵母)(不包括介音,下同),说明[iau]应该切分成[i][au]。又如,汉语的“外”和“派”押韵,其中韵母的相同部分是[ai],说明[uai]应该切分成[u][ai]。所以,“每个音节只有一个元音”“双元音、三元音当中没有明显的界限”这两条理由都没有根据,都不成立。

      下面我们考虑双元音是否也应该切分。首先,英语的双元音比短元音(经常称为“松元音”,如等)长几乎一倍,说明双元音在长度上可以算两个音。第二,英语的非轻读单音节词,韵母可以是VC(短元音加辅音),也可以是VV(双元音或长元音),但不能是V(短元音)。这个事实说明,在韵母中,VC相当于VV。由于VC显然是两个音位,所以VV实际上相当于两个音位,也应该一分为二。

      下面我们考虑长元音(经常称为“紧元音”,如[i:]、[u:]等)。长元音跟双元音类似,在长度上比短元音长,在韵母中也相当于VC,占了两个韵母位置。那么,每个长元音是否应该算两次呢?这个问题有两种观点,区别在于长元音的结构如何表达。我们先考虑图1所示的几种韵母结构。

      

      以上四个韵母分别都有两个韵位,根据习惯用XX表示。在图1中,a和b每个音位占一个韵位。至于长元音,学界的共识是,元音本身没有长度,它们的长度来自于所占韵位的数量。c和d是对长元音[i:]的两种分析。c认为i:]来自于两个[i],它们分别占了一个韵位。d认为[i:]来自于一个[i],不过这个[i]同时占了两个韵位。c和d哪个更合理呢?首先,c和d没有对立功能,所以,我们只能选其中之一。有理由认为,d的分析更为合理。

      其他的调整还有,我们将四个鼻化韵母排除了,因为它们只见于外来词,而且数量极少,频率处于末尾,不影响对其他元音的统计。

      根据以上讨论,我们将双元音一律切分成两个单元音,而且,每个长元音的出现只算一次,不算两次。再次统计的结果见表2。

相关文章: