所谓智能情报分析,就是将情报研究与智能技术相结合,构建人工智能情报分析体系[1-2]。早在1993年钱学森先生就提出使用信息的三个层次:简报式、情报专家式、智慧式[3],并认为“人机结合”是智慧式情报的关键[4]。基于钱学森情报思想,戴汝为院士提出了综合集成研讨厅系统[5],实现信息资源、专家智慧、机器智能的有机结合;2015年王飞跃提出智能化平行情报(Parallel Intelligence)[6],利用智能技术培育“活”的人工情报系统,构成实际与人工情报过程平行运行的实时、在线、闭环、自适应的智能情报体系。 随着大数据知识资源爆炸式增长,2012年谷歌发布知识图谱、2016年AlphaGo战胜人类围棋冠军等标志知识工程技术和深度学习技术出现重大突破事件的相继发生,给智能情报分析带来新的挑战和机遇。 1 从数据驱动到知识驱动 1.1 数据驱动的计算模式 自从约翰·麦卡锡(J.McCarthy)在1956年达特矛斯会议上提出“人工智能”(Artificial Intelligence,AI)以来[7],神经网络技术给AI带来了三个黄金发展时期。1957年罗森勃拉特(Rosenblatt)提出二分类的感知机模型(Perceptron),通过输入实例的特征向量,可输出实例的类别,但该模型不支持大规模数据训练。1982年霍普菲尔德(J.Hopfield)提出离散神经网络模型[8],在反向传播算法(Back Propagatiot,BP)支持下,实现了大规模神经网络训练和多模式识别,其缺点是不能对无标注数据进行训练,且BP存在梯度消失、无法对前层进行有效学习等问题。2006年杰弗里·辛顿(G.Hinton)提出深层网络模型(Deep Belief Network,DBN)[9],又被称为深度学习技术,实现了从浅层网络结构到深层结构的变化,能有效抑制梯度消失问题,支持自动提取并表示复杂特征,使分类和预测更准确。 以深度学习为代表的神经网络技术本质上是模式识别,即通过对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释[10]。当前,神经网络等模式识别过程输入的主要是结构化、半结构化、无结构化数据,计算对象主要为数据特征向量而非语义向量。本文将此类分析处理过程称为数据驱动的计算模式。 1.2 知识驱动的计算模式 图灵奖获得者费根堡姆(Feigenbaum)于1977年提出知识工程与专家系统的思想。根据费根堡姆的观点,AI应该具有认知和推理能力,而要实现这一目标的关键是建立机器可理解的结构化知识[11]。早期的知识工程将知识定义为系统内部的专家知识。知识单一、知识量小、知识表示技术缺乏等因素制约了知识工程的发展[12]。1998年Berners-Lee提出语义网(Semantic Web)[13],希望通过实现Web数据结构化,支持机器可理解。但语义网因其追求强语义的理念而落地困难。2006年Berners-Lee又提出基于弱语义的关联数据(Linked Data)[14],并迅速得到广泛认可,先后产生了包括DBpedia[15]、Probase[16]、Freebase[27]、ConceptNet[28]等众多有影响的关联数据资源和服务。随着技术资源的发展,知识体系的自动构建在新型神经网络技术、海量数据资源、超强计算设备支持下成为可能,2012年5月谷歌正式发布知识图谱(Google's Knowledge Graph)[19],并提出据此构建下一代智能搜索引擎,从而催生了众多领域知识图谱建设与应用热潮。与早期计量学领域的科学知识图谱(Mapping Knowledge Domains)[20]不同,谷歌知识图谱是通过描述现实世界中的实体概念及其关系而构建的一种知识库[21]。 在知识图谱的概念体系和知识资源支持下,机器可实现类似人类的认知功能,通过概念推理、语义计算等发现新知识。本文将这种分析处理过程称为知识驱动的计算模式。 1.3 未来趋势:数据驱动+知识驱动 深度学习技术在围棋、语音识别、图像识别等领域取得了一些成功,但深度学习作为一种模式识别技术具有很难克服的局限性。主要包括:①可推广性差,基于特征向量的模式识别,适合面向某一具体任务,而在某一领域学习到的特征很难迁移到其他领域;②可解释性差,模式识别属于暗箱操作,结果难解释,因而难被采信;③鲁棒性差,大数据环境下信息的复杂多样性会影响模式识别结果,增加不确定性;④基于对重复特征的概率统计而不是语义认知进行识别和决策,容易产生错误,甚至会带来严重后果。 与基于数据驱动的深度学习技术不同,基于知识驱动的知识图谱技术可解决以上问题。首先,在知识图谱支持下,知识推理方法较易实现在不同任务、不同领域间的推广移植;其次,知识驱动增加了语义分析,不再是暗箱操作,结果具有可解释性;另外,知识推理过程与人的认知判断相似,鲁棒性更好,不易产生重大错误。