知识图谱

——信息管理与知识管理的新领域

作  者:

作者简介:
秦长江,南京农业大学人文学院。(南京 210095);侯汉清,河南科技大学经济管理学院。(洛阳 471003)

原文出处:
大学图书馆学报

内容提要:

概述知识图谱的概念和主要应用领域,明确与知识地图、信息可视化、知识管理之间的关系,简介构建知识图谱的理论、关键技术、相关软件,总结知识图谱的发展历史、国内研究存在的不足和国内外最新研究进展,提出建议和对策。


期刊代号:G9
分类名称:图书馆学情报学
复印期号:2009 年 05 期

字号:

  

  1955年加菲尔德发表题为《引文索引用于科学》的论文,系统地提出用引文索引检索科技文献的方法,1961年开始编制面向全部科技领域的综合性引文索引《科学引文索引》(简称SCI)并于1963年出版[1]。1965年,普赖斯借助《SCI》发表了论文《科学论文的网络》,这篇论文研究了科学论文之间的引证和被引证关系以及由此形成的引证网络。普赖斯指出在这个网络图上,有密集分布的小条或小块,如果把这些小条小块研究清楚,就可以绘制当代科学的“地形图”[2]。由此引文分析普遍开展起来,而信息技术的广泛运用,更使得引文分析、共现分析等方法如虎添翼。进入新世纪以来,知识图谱的理论与方法,以其理论上的综合化、方法上的可视化、描绘上的形象化等诸多特征,获得迅猛的发展,一跃成为当代科学计量学的研究热点与最新前沿,研究极为活跃。但在文献计量学的发源地——图书馆学情报学领域,知识图谱却不是非常重视。当代著名情报学家加菲尔德和权威科学学家默顿都认为:科学计量学、文献计量学、信息计量学都属于同一门学科——科学计量学[3]。因此,本文拟对知识图谱的理论与方法作一简要介绍,以期引起国内同行的重视和研究。

  

  1 知识图谱概述

  

  1.1 知识图谱的概念

  

  知识图谱(Mapping Knowledge Domain,在图书情报界也称为知识域可视化或知识领域映射地图),是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。具体来说,知识图谱是把应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构的多学科融合的一种研究方法。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。迄今为止,其实际应用在发达国家已经逐步拓展并取得了较好的效果,但它在我国仍属研究的起步阶段。

  

  1.2 知识图谱与知识地图、信息可视化、知识管理之间的关系

  

  为了确切地理解知识图谱的概念,首先要明确它与知识地图、信息可视化、知识管理之间的关系。

  

  1 2.1 知识图谱是知识地图的一种高级表现形式

  

  英国著名的情报学家布鲁克斯(B.C.Brooks)在他的经典著作《情报学基础》中最早提出了“知识地图”的概念。布鲁克斯指出情报学的真正任务应该是组织、加工和整理人类客观知识,将知识结构绘制成以各个知识单元概念为节点的学科“认识地图”,通过对文献中的逻辑内容进行分析,找到人们思想的相互影响及联系的结合点,从而为用户提供知识之间关系的一种知识组织的理想状态[4]。布鲁克斯所提出的“知识地图”是从知识网络的形式出发,说明知识单元发展变化的过程,促进知识的变化过程向理想的状态发展。而目前信息管理界研究的应用于知识管理的知识地图,其思想来源于布鲁克斯,但与他提出的“知识地图”的概念是不同的。目前研究的知识地图就是对组织知识资源总体分布情况的可视化描述,包括组织知识资源的存在情况及其载体,以及资源之间可能存在的联系。实质上就是利用现代信息技术制作的组织知识资源的总目录和各知识条目之间关系的综合体以及组织专家的导航系统。是利用构造地图的方法将各类知识资源中的知识关联起来,使之成为一个网络[5]。IBM的The Lotus Knowledge Discovery System推出了强大的知识地图集成方案;微软公司的知识地图包含了137项显性知识及200项隐性知识[6]。由此可见,目前研究的知识地图建立的只是文献信息之间的,最多是知识之间的一种关联,而无法说明知识单元发展变化的过程,因此,并不能称为严格意义上的知识地图。而知识图谱正是实证研究科学共同体结构与发展的方法,通过把最先进的信息技术运用于知识图谱的绘制,来实现动态发展着的学科知识的可视化,揭示学科发展规律。在知识图谱中,学科前沿之间的交互关系是以空间的形式展现出来的,这样就能够探明有关学科之间的亲缘关系和结构,划定某学科的作者集体以及“无形学院”(无形学院是特定的学术社群,即具有共同信念的合作群体中的学者形成的交流网络),分析推测学科间的交叉、渗透和衍生趋势,对某一学科的产生背景、发展历史、突破性成就、今后发展方向进行分析,从而揭示学科的动态结构。因此,知识图谱遵循了布鲁克斯“知识地图”的思想,可以说是布鲁克斯所提出的“知识地图”的真正雏形,并向着这一理想目标迈出了坚实的一步。

  

  1.2.2 知识图谱是信息可视化的一个分支

  

  信息可视化是利用计算机支撑的、交互的、对抽象数据的可视表示。可视化技术不仅在揭示信息资源的广度与深度上有很大的优势,还能够将隐藏在信息资源内部的、复杂的、抽象的语义以直观的图形方式呈现给用户,为用户直观、方便获取、过滤、理解大规模数据和信息提供了有效途径,从而发现信息之间的关系特征和规律[7]。知识可视化是将数据挖掘和知识发现等方法所获得的知识和规律,尤其是知识的构成和知识之间的逻辑关系,以及具有复杂结构的知识,利用可视化的方法表现出来,使得知识便于理解。该类型的可视化可以是静态的关联、聚类、分类知识,也可以是反映系统演化规律的知识[8]。知识图谱就是利用信息可视化技术,根据共引分析、共现分析等理论基础,构建的一种知识之间关系的网络图,常见的网络有时序网络、共引网络、共词网络、耦合网络、合作网络等。它包含了以文献等信息为节点、以它们之间关系为边的链型、树型、网型等结构的图形。这些关系聚类图的可视化包括作者、文章、期刊、关键词、学科等类型,节点分别是作者、文章或期刊等,边即权重。知识图谱这种扩展到深层次的知识发现和数据挖掘领域中的可视化方法,在信息管理界被称为知识领域可视化[9]。因此,知识图谱和信息检索过程可视化、信息检索结果可视化一样都属于信息可视化的一个重要分支。

  

  1.2.3 知识图谱是知识管理中数据挖掘和知识发现的有效手段

  

  数据挖掘是从大量数据中挖掘隐含的、先前未知的、具有潜在价值的知识或规则。这些规则蕴含了数据之间的特定关系,揭示出有价值的知识[10]。数据挖掘的主要模式有聚类、关联规则、序列模式、分类等。聚类是把一组个体按照相似属性归成若干类别,其目的是使得属于同一类别的个体之间的距离尽可能小,而不同类别的个体间的距离尽可能大;序列模式主要是分析数据间的前后序列关系;分类要解决的问题是为一个事件或对象归类。知识图谱就是将数据挖掘和知识发现的有关方法和模式移植到文献信息之间的共引、共现关系上,采用关联、序列、聚类、分类等方法进行深层次的分析,发挥它能够从大量的、不完全、模糊的、随机的、事先未知的数据中自动、有效、智能地提取隐含于其中的有用信息和知识的优势。科学发展的继承性可以从引证关系上体现出来;通过对引证关系的挖掘分析,发现科学理论和方法的历史演变过程;用共现、共引、耦合关系按年代分布所构成的历史图和网状关系进行研究,能够揭示学科结构特点、研究热点、发展源流、专业相关程度以及突破性成就、未来发展方向等[11]。知识管理提供容易使人们理解和使用的知识,而不是分散的、复杂的、难以理解的信息单元。知识管理强调系统化地处理和利用信息,发掘知识内涵,建立以先进信息技术为基础的知识管理系统,促进知识的广泛共享[12]。因此,知识图谱方法就是知识管理的一种有效形式,在揭示信息关联及规律方面具备其他许多方法不可比拟的优越性和独到之处。

相关文章: