语料库语言学得以迅速发展,与用于开发与分析语料库的程序软件密切相关。其中用得最广的工具之一,就是索引软件。 1.索引软件的原理与功能 1.1. 索引、索引大全、索引软件 讨论之前,先要区分索引(index),索引大全(concordance)和索引软件(concordancer)。 索引一般是全书的一小部分,附在书后,将著作中主要词语按字母顺序排列,并注明在书中的主要出现页码。索引大全与索引的不同之处,在于索引大全同时提供中心词所在的上下文的一部分。如果要查找具体的引证,则索引大全要有用得多,但同时也需要更多的篇幅,因此索引大全通常是独立的著作。索引软件,是检索计算机语料库的程序。它可将语料库中各词形出现的全部场合在屏幕上显现出来或打印出来。词形每次出现时,都处于所在的上下文之中。索引软件与索引大全有几个显著的不同: (1)它所检索到的信息是动态的,内容是可以扩展的。 它不但能检索出输入到计算机中的文本所含的全部词形,而且其出现频率与在原文中的地址也一目了然。确定查找某一词形的上下文时,该词形所在的行就在屏幕上同时显现。要更深入的观察某一同现行的上下文,该行所在的原文又可扩展到原句、原段并显现出来。这样,既可对文本有总体认识,又可对局部仔细考察。 (2)查到所需要的内容后,处理方便。既可在屏幕上观察, 又可打印出来进一步研究。还可以存盘再处理,或写入到其它的文件中去,节省了许多抄写、再生的环节。 (3)计算机所能处理和储存的信息量很大。对输入的语料, 不需要删略语法功能词或高频词。用索引软件检索语料库中的原著,会比索引大全查得更全。它不但能查词和词语,还能查语法结构,语法类型,扩大了研究的范围。 1.2 索引软件的工作原理 建立可以用计算机处理的语料库,输入的文本一般为很简单的形式:一串字母,空格,标点。这些通称为字符,保留大小写的区别。页号与行号也保留,作为参考。 排版, 字体号等内容则已删掉(Sinclair,1991:27)。 索引软件对一个词的定义,在英文里是以符号串之间的空格为准的。每两个空格之间的字符串称为一个标形(token)。 相同的标形被视为同一类型(type),即词形(form)。词尾的屈折变化一般并不归入到某一词的原形之下。例如come 一词, 它的几种形式(come, comes,came,coming)被作为4个词形对待。对同形异义词,例如bear (忍受,熊),bass(男低音,鲈鱼,椴树),在没加词类标记或语法标记的语料库中,被作为同一词形对待。 用分割号隔开的一些省略用法,如you'd,we'LL,can't等,均被作为单一的词形对待。这在实际分析语料时很有用。 输入到语料库中的文本,通常以美国信息交换标准码即ASCII 码(American Standard Code for Information Interchange)的形式储存。其它符号需转化为ASCII码。 文本被这样数字化以后,使用索引软件时,程序可以自动给文本中的每一个标形建立一个索引数据,并把每一个标形与它所在的上下文中的地址(addreSS)即位置联系起来,把与每个标形共同出现的索引行确定或产生出来待查。索引程序将建立的索引数据的文本按一定顺序重新分类排序,以利查找。 发出检索某一词形的指令后,计算机快速扫描文本,辨认出构成该词形的所有标形及地址,把与这些标形同现的索引行找出并写在一个外部文件上。该文件每行长度最多可达130个字符。 利用标准的外部分类算法, 程序将索引出来的行分类, 并根据需要集中显示或打印出来(Jones,1991:22—23,Behar,1995:129—130)。 1.3. 索引软件的主要功能 利用索引软件所进行的最简单形式的索引,是位置索引。它指明构成某一个词形的各个标形在文本中的出现位置。同时也能提供该词形的出现频率。第二种是以行的形式索引。它适合诗歌、诗歌剧的文本。其各行长度相仿,一行足以表明某词的作用。 最有用也是最常用的索引形式,是关键词带上下文的定位行索引(Key Word in Context,简称KWIC)。要考察的关键词形在每行的中央出现(有些软件将其设定在行首或行尾),两边各有至少一列空格,左右各有一段均衡的上下文。关键词自上而下形成整齐的竖列,安排十分醒目。 关键词左右的上下文,长度可以根据需要调整设定。如+6 表示左右各有6个词。有些索引软件可将上下文扩展到整句甚至整段。 上下文还可以由计算机排序。最有用的是在关键词的右边,按字母顺序排列各同现行的下文。这种排法突出了中心词引起的词组。另一种排序法,是将关键词左边的上文按最末一个字母的ABC顺序排列。 当中心词是动词时,这种排序法常能迅速地找出动词的主语,从而为了解主谓搭配和篇章的主题提供有用的线索。上下文也可以按照出现的频率从高到低排列,把与关键词最常出现的词形首先集中同现。这对研究英语词语的搭配极其有用。 对语料库中的高频词,还可以用取样索引的方法,缩小样本。例如索引某词时将参数定为每10行索引一处,就将该词的索引样本缩小到原来的十分之一。