电子词典编纂中的语义网与义链研究

作者简介:
王东海 张志毅 王丽英,鲁东大学汉语言文学院。

原文出处:
长江学术

内容提要:

电子词典可以分为机用型、传统型、学习型和研究型。研究型能集中体现电子词典编则个性。前沿的研究型电子词典主要是基于知识本体、语义网等理论,采用显性语义关系义链和隐性操作义链的方式进行编纂的。要发挥义链的优势,也要对其不足进行控制。


期刊代号:H1
分类名称:语言文字学
复印期号:2007 年 12 期

关 键 词:

字号:

      电子词典研究在国外已经进入一个蓬勃的发展期,国内由于受技术和盗版等因素影响,进展缓慢。电子词典最能体现词典的工具性、实用性、方便性和高效性,代表着未来的发展趋势。探讨电子词典编纂中的语义网和义链是当代甚至未来词典学研究的一个重点。

      一、电子词典的类型及其特点

      我们可将电子词典主要分为机用型、传统型、学习型、研究型四种。传统型电子词典主要用于学习者进行普通的词汇查检,学习型电子词典主要用于普通大众进行词汇习得,而机用型电子词典除了全民通用性外,更多地是用于专业的翻译领域,而且多以后台方式存在、运作。而研究型电子词典是最前沿的,它探索出来的新的编纂思路和方法会在机用型、传统型和学习型电子词典中具体体现。研究型词典虽然具有一定的探索性质,但却体现着电子词典编纂思路相较于传统词典的根本性转变,它们将词汇语义理论的最新成果和计算机信息处理的最新技术应用于词典编纂。研究型电子词典在深入探讨词位系统和词义系统的语义结构层次和语义关系的基础上,以语义场、词群、框架语义学、语义配价、并置理论、语义网络等新的理论为指导,开创性地提出了许多编则,代表了电子词典的未来发展趋势。这些研究型词典的最大特点是先有一个尽量统括全民族词汇的知识库,如MindNet、WordNet、FrameNet、ILD等,汉语方面有北京大学仿照WordNet标准制作的CCD等。而基于WordNet词库技术的研究型词典已经进入成熟的商业化运作,如Thinkmap Visual Thesaurus。

      二、电子词典新编则理论基础——知识本体(Ontology)与语义网

      研究电子词典的新编则必须从研究型电子词典入手。现代研究型电子词典大都是基于语义网理论。语义网又是基于知识本体而建构的,或者说其核心骨架是基于知识本体的。知识本体的研究最近成为热点,它在为工程语义学提供形式化、方便共享的词表的同时,也成为全面揭示语义类别的重要工具,并且逐渐成为语义网的最佳操作工具之一。借用知识本体,可以对分类的语义关系类别、继承性等进行深入而细致的研究,揭示很多新的有普适性的规律,这些规律将直接转化为新型电子词典编纂的思路。

      Ontolosy被译为“知识本体”。目前在计算机信息处理的工程语义学界提到的Ontolosy,比较公认的定义是:“本体是对共享的概念进行形式的显示和规范说明,即要用形式化的方法规范地说明关注域中的概念术语与概念术语之间的关系”(注:何飞等:《基于领域本体的知识关联研究》,《湖南城市学院学报》2005年第1期。)冯志伟界定为:“知识本体通常是指对一个领域或微世界进行分析而获得的概念系统的规范说明。”(注:冯志伟:《词汇语义学与词网》,烟台师范学院讲座2005年,以下几处引用均出自此讲座。)Studer对本体的诸多定义进行概括后认为,本体论的概念包括四个主要方面:1.概念化;2.明确性;3.形式化:4.共享性(注:李健康等:《本体研究及其应用进展》,《图书馆论》2004年第6期。)。冯志伟进行了诠释:如果我们对于一个领域中的客体进行分析,找出它们之间的关系,获得了这个领域中不同客体的集合,这一个集合可以明确地、形式化地、可共享地描述这个领域中各个客体所代表的概念的体系,这样的概念体系的规范就可以成为这个领域的知识本体。

      冯志伟在介绍Ontology时,将知识本体分为通用性知识本体、语言知识本体、形式知识本体。其中语言知识本体常常表现为一个词表,其中要描述概念和术语之间的关系。具体地说,如果我们把每一个知识领域抽象成一个概念体系,再采用一个词表来表示这个概念体系,在这个词表中,要明确地描述词的涵义、词与词之间的关系,并在该领域的专家之间达成共识,使得大家共享这个词表,那么,这个词表就构成了该领域的一个语言知识本体。

      电子词典的编纂首先要定域、定词、定层、定关系,按属种划分关系、整体与部分分解关系的特点(注:王东海:《〈唐律疏议〉法律专科词汇语义系统研究》,北京师范大学博士论文,2006年。)确定好一个结构严密、联系紧密的上下义语义树,确定好上下层级关系之后,再确定平行的语义关系。在整个语义网中,上下义关系决定着总体拓扑结构,而在上下义关系的每一个层次的平行方向,会有许多的二级节点词项,在语义树每个分支的末端层次是平行的叶子词项,这些平行向的词项群是整个语义树的局部分形体,与整个知识本体构成整体与部分的关系。如果说上下层级关系主要还体现的是知识分类的话,那么平行层级关系可以更多地体现着语言分类标准,比如同类、同义、反义词项往往处于同一层次,体现着语义的平行性。基于语言知识本体的语义网络可以清楚、全面地揭示词语之间所蕴含的语义联系。一个知识本体基本是由纵向的有上下义关系的词项系统和横向的有平行类义词项系统结合起来的语义网结构,能全景式地展现词汇语义系统的多层嵌套式的上下义骨干结构及每个层次的平行节点的结构,是研究词汇语义系统层次的最佳思路和方法。

      根据何飞等人的研究(注:何飞等:《基于领域本体的知识关联研究》,《湖南城市学院学报》2005年第1期。),结合我们的研究,与基于“知识本体”理论构成的上下义语义树相关的概念可以这样界定:每个语义分支的最末端为一个个独立的词项,称“叶子词项”。词项间路径指的是两个词项连通所需要的最短路径,语义树的深度,指从初始词项到最小语义树分支的末端叶子词项的最长路径长度;词项间的关联度,表征两个词项的义位之间的关联程度,显然,关联度越大,语义相似度和相关度就越高,关系越紧密。最小上界指语义树的根词项,即于江生(注:于江生等:《中文概念词典的结构》,《中文信息学报》2002年第4期。)所说的初始概念,可称初始词项。最大下界,指语义树的叶子终端。

      而研究型电子词典借助计算机强大的识别、储存、检索技术,可以自动计算语义相似性而进行词语的自动类聚和层分,最后通过语义链的方式将词汇语义系统进行动态的呈现。另外,以ThinkMap为代表的基于语言知识本体语义树理论而编纂起来的电子词典,还通过计算机技术,使词典使用者第一次获得了对词典编纂的一定程度的控制权。如在词典安装时就可以选择自己目前的水平和想到达到的水平,并根据不同的学习目的安装不同的词库,然后根据词频将常用词、基本词挑选出来,进行集中习得,词目数量和范围在一定程度上可控,这样可以有效地控制叶子词项的数目和语义网的复杂程度,达到最好的词汇习得效果。电子词典的这种安装特点体现了使用者、操作者对电子词典的收词数目的控制,符合学习的心理和进度。而传统词典在这方面是不可控的,使用者只能被动接受一部既成词典提供的信息,选词、立目、释义、举例等方面的信息都是定型后提供给使用者,使用者没有任何选择权。

相关文章: