中图分类号:F490.5 文献标识码:A 文章编号:1007~8266(2016)01~0031~06 一、引言 物联网、云计算等技术的广泛应用,使得大量的结构化、非结构化和半结构化数据聚集,大数据已成为重要的数据资产,在一个国家、行业、企业中的价值日益凸显。物流涉及多个业务流程,如采购、出库、入库、运输、保管、配送等,每一个业务流程都会产生大量数据。随着物流信息化的建设和“云物流”的推进,物流数据不仅包括结构化数据,也包括非结构化和半结构化数据;既包括静态数据,也包括动态数据。数据在规模上呈现加速度扩大的趋势,物流信息越来越呈现出大数据化。 物流信息的价值为越来越多的企业所认同,对物流信息进行分析从而得出有价值的认知和思想,成为企业、政府管理部门、行业等主体的追求。不过,传统的物流信息分析存在以下不足: 第一,数据获取手段落后。多以手工或半自动方式为主,需要耗费大量的人力、物力和财力,且效果一般,特别是面对越来越多激增的数据,更难以满足物流信息利益相关者的实时、准确需求; 第二,数据分析过程漫长。虽然也建立了各种分析模型,也能获得相应的分析结果,但过程长、耗时久,物流信息分析的效率低下,难以达到物流信息利益相关者的期望值,不能充分挖掘物流信息的价值; 第三,数据分析结果出错几率大。由于更多地是由专家根据经验对模型结果进行分析与判断,主观因素的影响明显,数据分析结果出错的几率较大,甚至有可能提供给利益相关者的信息和知识与其原始需求南辕北辙。 目前,用户对物流信息分析的智能化需求不断提升,希望通过物流信息智能分析来适时、高效地满足自己的信息需求,以提高决策的科学性。 二、云挖掘技术 (一)云挖掘的概念 经过20余年的发展,数据挖掘技术经历了五个发展阶段:第一代是数据的独立应用;第二代是数据库以及数据仓库集成出现;第三代是预测模型系统集成大量应用;第四代是分布式数据挖掘技术的产生和应用;第五代是基于云计算的并行数据挖掘与服务的发展。[1]传统的数据挖掘技术已很难适应海量数据的增长,对于实时数据或数据流的挖掘无能为力,难以满足个性化多样化的数据挖掘需求。基于海量的存储能力和强大的计算与数据处理能力,云计算已成为解决海量数据挖掘的有效方式。[2]第五代数据挖掘技术的出现,为大数据的深度开发与利用提供了前提和基础。 所谓云挖掘,是指由云计算技术支撑的并行数据挖掘,即基于云计算平台的并行动态数据挖掘,以实现海量数据的高性能、高可靠性的存储、分析、处理及挖掘。云挖掘的成功离不开以下关键技术:数据存储方式、基于云平台的数据预处理方式、适于云平台的海量数据挖掘并行算法。[3] (二)云挖掘的实现原理 云挖掘能充分发挥集群优势,可实现计算资源自主分配和调度。一方面利用集群上的其他节点来承担相应的存储任务和计算任务;另一方面利用云计算的海量存储能力和并行计算能力,来处理核心的数据挖掘工作,让算法通用、可调、可查和可视,同时提供友好、方便的用户界面和开放接口,让用户在客户端完成隐私数据的加密保护,满足用户的多样化和个性化需求。[4] 云挖掘的实现原理如下: 1.用户利用计算机、平板电脑、手机等终端,登录云挖掘系统,提出自己的挖掘需求,并可结合自身的具体情况,设置相应的算法参数,同时输入基本数据; 2.云挖掘系统收到用户的挖掘需求后,立即响应需求,对工作节点的空闲状态进行分析,将挖掘任务交由空闲的工作节点去完成; 3.云挖掘系统基于用户之前提交的需求与算法参数,对用户输入的数据和从分布式存储系统中调用的数据推导计算缺值数据,完成数据类型转换、滤除噪声、消除重复记录等预处理工作; 4.云挖掘系统的工作节点自动选择相应的数据挖掘算法,对经过预处理后的数据进行并行数据挖掘,经过模式评估与解释后,获得对用户有用的信息与知识; 5.云挖掘系统将各工作节点的挖掘结果进行合并,选择合适的可视化工具,将挖掘结果传递给用户。 三、基于云挖掘的物流信息智能分析应用平台的架构设计 (一)逻辑架构 基于云挖掘的物流信息智能分析应用平台从逻辑上可以分为6个层次:用户交互层、平台应用层、平台管理层、物流信息分析层、虚拟化资源层、基础设施层,如图1所示。
图1 基于云挖掘的物流信息智能分析应用平台的逻辑架构 该平台的“智能分析”主要包括利用虚拟化技术实现虚拟化资源层的建设和物流信息分析层利用云挖掘技术实现虚拟化资源层数据的算法分析这两部分,前者类似于商务智能中的数据仓库,后者类似于商务智能中的数据挖掘,进而形成三种主要的物流信息智能分析方法:基于云分类挖掘的物流信息智能分析方法、基于云聚类挖掘的物流信息智能分析方法、基于云关联挖掘的物流信息智能分析方法。