关于口译语料库的建置与研究,迄今以名古屋大学1999-2003年之间开发的英日/日英同步口译语料库(SIDB,Simultaneous Interpretation Data Base)为最大,约达182小时(听写成100万字)。该研究团队在此基础上,自2001-2006年进行了一系列检证口译产出特征的量化研究。 本研究将从其建库到研究成果产出的10年期间,针对该研究团队的学术活动,分析其成员属性、主题分布、经费运用、学术成果、主要特色等,作为今后口译语料库大规模建置及研究开展上的借鉴。 其次,在掌握前述信息的基础下,将以SIDB语料库的编码与标记,进一步描述其建置架构并评估其优势与特色,并与其研究产出之间的关系提出评估报告。 二、SIDB描述 该团队核心成员松原茂树(2001:86)的研究报告指出该语料库是源于名古屋大学“统合音响情报研究据点”(CIAIR,Center for Integrated Acoustic Information Research)武田一哉教授(Kazuya Takeda)于1999-2003年执行文部省COE(Center of Excellence)计划所衍生的一项研究①。其庞大的科研经费主要是投入多元音响信号的综合理解之用,包括汽车行进间的话语辨识及过滤噪声等研究。 前述研究团队为了追求口译自动化的目标,因而于1998-1999年开始着手双语同传语料库的建置准备。当时他们所尝试的是一种“渐进式的英日口语翻译手法”(松原茂树等1998,1999),亦即顺着小句的词序,采取顺句驱动的方式产出译语。然而,他们认为唯有从职业译员获取真实的口译语料,才能为自动化的口译产出找到最佳范本,以利系统的设计与运作。以下是SIDB语料库的概要:
该语料库的建置除了以支持自然语言处理、认知科学、认知语言学、口译研究、口译教学、外语教学等多功能用途为其目标之外,最大的梦想是追求口译的自动产出。甚至,包括在电话、车内等伴随杂音的环境下,得以自动产生优质的口译。基于此,他们在该语料库的语音标记及时间信息上,格外要求精细的记载。而这也是该研究主旨——“多元音响信号的综合理解”的落实与诠释。 三、SIDB的编码与标记 SIDB语料库的语料分成独白与对话两种类型。前者由职业译员担任口译,并由真人进入玻璃录音室,让译员在可看到并听到源语讲者的情况下进行同传。而对话语料则采取面对面与仿真电话的非面对面形式,译员口译时可以听到两位对话者的话语内容,以掌握完整的语境。收录情况如下:
在编码方面,研究团队针对收录语料时的背景数据、语料特征、说话者与译员及其话语媒介等信息分别加以编码。主要可分类为:背景环境、语料特征、话语讲者、话语界面。详见表2:
该语料的标记采取的是自动化语料标记(tagging)方式,可分话语篇章标记、时间信息标记、话语语流标记。以下,将针对各项标记的定义、目的、功能、特征等提出详细描述。 所谓“话语篇章标记”,指的是该语料的语音听写方式。该团队采取的是日本国立国语研究所制订的“日语口语语料库(CSJ)”基准。也就是说,以200msec以上的停顿为其切分(segment)依据,并将此视为一个话语单位(松原茂树等2001:92)。而这样做的目的是为了找出一个明确客观的分割信息依据,同时也可借此确定话语的基本单位。如此,就可以写出程序,并透过程序去自动撷取及分割话语信息,而停顿两秒以上即形成一个可客观辨识的话语标志(discourse marker),有助研究人员据此探究口译产出时的认知意义并加以分类。 由于日语有汉字与假名混杂的现象,故除了第1行是纪录话语的时间序列,第2行是源语的听写文字,第3行则是语音标记(以片假名标示前一行语音的加工程序)。而英语则只有两行——时间序列与源语文字,而无语音标记。详参以下表示时间信息的标记图标(图2、图3):
在“时间信息标记”方面,包含前述水平纪录的时间序列与源语文字形成水平走向(图4)及垂直方向的时间序列纪录(图5)。