计算语言学(Computational Linguistics)是当代语言学中的一个新兴学科,在这门学科的发展过程中,曾经在计算机科学、电子工程、语言学、心理学、认知科学等不同的领域分别进行过研究。之所以出现这种情况,是由于计算语言学包括了一系列性质不同而又彼此交叉的学科。本文简要介绍了计算语言学的萌芽期、发展期、繁荣期,总结了计算语言学中形式模型研究的成果,并分析了当前计算语言学发展的四个特点。 1.计算语言学的萌芽期 从20世纪40年代到50年代末这个时期是计算语言学的萌芽期。 在“计算语言学”这个术语出现之前,就有一些具有远见卓识的学者研究过语言的计算问题,他们从计算的角度来研究语言现象,揭示语言的数学面貌。 1847年,俄国数学家B.Buljakovski认为可以用概率论方法来进行语法、词源和语言历史比较的研究。1851年,英国数学家A.De Morgen把词长作为文章风格的一个特征进行统计研究。1894年,瑞士语言学家De Saussure指出,在基本性质方面,语言中的量和量之间的关系,可以用数学公式有规律地表达出来,他在1916年出版的《普通语言学教程》中又指出,语言好比一个几何系统,它可以归结为一些待证的定理。1898年,德国学者F.W.Kaeding统计了德语词汇的在文本中的出现频率,编制了世界上第一部频率词典《德语频率词典》。1904年,波兰语言学家Baudouin De Courtenay指出,语言学家不仅应当掌握初等数学,而且还要掌握高等数学。他表示坚信,语言学将日益接近精密科学,并将根据数学的模式,更多地扩展量的概念,发展新的演绎思想的方法。1933年,美国语言学家L.Bloomfield提出一个著名的论点:“数学只不过是语言所能达到的最高境界。”1935年,加拿大学者E.Varder Beke提出了词的分布率的概念,并以之作为词典选词的主要标准。1944年,英国数学家G.U.Yule发表了《文学词语的统计分析》一书,大规模地使用概率和统计的方法来研究词汇。 这些事实说明,关于语言计算的思想和研究是源远流长的。 有四项基础性的研究特别值得注意: 一项是Markov关于马尔可夫模型的研究;一项是Turing关于算法计算模型的研究;一项是Shannon关于概率和信息论模型的研究;一项是Chomsky关于形式语言理论的研究。 早在1913年,俄罗斯著名数学家A.Markov就注意到俄罗斯诗人普希金的叙事长诗《叶甫盖尼·奥涅金》中语言符号出现概率之间的相互影响。他试图以语言符号的出现概率为实例,来研究随机过程的数学理论,提出了马尔可夫链(Markov Chain)的思想,他的这一开创性的成果用法文发表在俄罗斯皇家科学院的通报上[10]。 后来A.Markov的这一思想发展成为在计算语言学中广为使用的马尔可夫模型(Markov Model),是当代计算语言学最重要的理论支柱之一。 在计算机出现以前,英国数学家A.M.Turing就预见到未来的计算机将会对自然语言研究提出新的问题。 1936年,Turing向伦敦权威的数学杂志投了一篇论文,题为《论可计算数及其在判定问题中的应用》。在这篇开创性的论文中,Turing给“可计算性”下了一个严格的数学定义,并提出著名的“图灵机”(Turing Machine)的数学模型。“图灵机”不是一种具体的机器,而是一种抽象的数学模型,可制造一种十分简单但运算能力极强的计算装置,用来计算所有能想象得到的可计算函数。1950年10月,Turing在《机器能思维吗》一文中指出:“我们可以期待,总有一天机器会同人在一切的智能领域里竞争起来。但是,以哪一点作为竞争的出发点呢?这是一个很难决定的问题。许多人以为可以把下棋之类的极为抽象的活动作为最好的出发点,不过,我更倾向于支持另一种主张:这种主张认为,最好的出发点是制造出一种具有智能的、可用钱买到的机器,然后教这种机器理解英语并且说英语。这个过程可以仿效小孩子说话的那种办法来进行。” Turing提出,检验计算机智能高低的最好办法是让计算机来讲英语和理解英语,进行“Turing测试”。他天才地预见到计算机和自然语言将会结下不解之缘。 20世纪50年代兴起的自动机理论来源于Turing在1936年提出的可计算性理论和图灵机模型,Turing的划时代的研究工作被认为是现代计算机科学的基础。Turing的工作首先催生了McCulloch-Pitts的神经元(neuron)理论。一个简单的神经元模型就是一个计算的单元,它可以用命题逻辑来描述。接着,Turing的工作还促进了Kleene关于有限自动机和正则表达式的研究。 1948年,美国学者Shannon使用离散马尔可夫过程的概率模型来描述语言的自动机。 Shannon的另一个贡献是创立了“信息论”(Information Theory)。他把通过诸如通信信道或声学语音这样的媒介传输语言的行为比喻为“噪声信道”(noisy channel)或者“解码”(decoding)。Shannon还借用热力学的术语“熵”(entropy)作为测量信道的信息能力或者语言的信息量的一种方法,并且他用概率技术首次测定了英语的熵[11]。