随着互联网及电子商务的快速发展,人们的购物消费方式发生了巨大的改变。中国互联网络信息中心(CNNIC)发布的第45次《中国互联网络发展状况统计报告》指出,截至2020年3月,我国网络购物用户规模达7.10亿,较2018年底增长16.4%,占网民总量的78.6%。2020年1-2月,全国实物商品网上零售额同比增长3.0%,实现逆势增长,占社会消费品零售总额的21.5%,比上年同期提高5个百分点。[1] 在网络购物规模和频率日益增长的趋势下,越来越多的消费者开始习惯于在购买后发表包含个人观点、情感信息、使用体验、价格和商品物流等多方面感知的在线评论信息,这使网络购物在线评论成为消费者表达购物体验的重要渠道,同时也是促使商家改进产品和改善服务的重要信息源。随着企业管理和数据监测的不断完善,在线评论的真实性和可靠性也不断提升。相比传统的市场需求调研,在线评论不受时间、地域、职业差异等的影响,使用户对产品和服务的改进需求和未来需求均能得到较大程度的展现。因此基于在线评论能够较为客观、全面地反映市场需求实现的程度。[2]王安宁等[3]提出了一种基于在线评论的区域需求偏好识别框架,实验结果表明,产品特征的情感极性以及产品满意度受区域因素的影响十分显著。岳子静等[4]采集了美团网的餐馆在线评论,对当地各菜系及其相关属性进行统计与情感倾向分析,得到其关注度与满意度,以此反映用户的菜系偏好及各菜系的传播发展情况。赵宇晴等[2]利用模糊理论融合情感分析技术,构建了需求—满意度量化模型,实现了用户满意度定量评价。Ru-xinNie等[5]利用在线文本评论,提出了融合多准则决策方法和情感分析技术的酒店选择模型,以帮助游客选择满意的酒店,并引导酒店经营者获得竞争优势。 虽然在线评论广泛应用于酒店、餐饮等行业的研究,但是在网络购物的物流服务质量上的研究却不多。传统物流服务质量的研究主要针对线下实体配送的物流企业,如Mentzer[6]在研究中结合物流服务的特点提出客户导向模型,从订单释放数量、订货流程、沟通质量、信息质量、货物精准率、货品完好程度、货品质量、时间性、误差处理等九个维度衡量物流服务质量。在线评论的出现使物流服务质量的研究主体从物流企业转向了消费者。Yuan等[7]指出,价格、方便性、时间性对消费者网购具有重要影响,是衡量B2C及C2C网购物流服务质量的重要维度。谢广营[8]从商家交付、物流配送、消费者签收、消费者满意或退换货等四个环节入手对物流服务质量的优劣进行评价。胡媛荣等[9]基于在线用户评论数据,识别出速度、包装、快递员态度以及退换货服务等四个用户最为关注的物流服务质量维度,并进一步分析了这四个维度的有效评论对潜在消费者购买意愿的影响。张华泉等[10]发现“物流因素”和“平台因素”对消费者正面满意度产生直接影响,而“产品因素”与消费者负面满意度之间具有显著的正向影响作用。毛郁欣等[11]基于负面在线消费者评论,发现货损、配送及时性与物流服务质量显著相关。张耀荔[12]通过实证分析和统计分析归纳出六个影响网购物流服务质量的维度:送货服务水平、接单服务水平、正确履行订单能力、时间性、信息服务能力和价格。 现有的基于在线评论的网络购物物流服务质量研究大多没有对在线评论进行情感分类,对不同情感极性的评论分别分析其特征,也没有针对不同类型网购商品的特点分析其不同的物流服务质量影响因素。鉴于此,本文拟利用Python采集京东商城家电类、生鲜类和电子类商品的在线文本评论数据,采用自然语言处理方法对评论进行分析,判断三种类型商品物流服务评论的情感极性,并分别对三种类型商品的正面、负面评论进行聚类,最后结合潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型确定消费者重点关注的物流服务维度,提高顾客的满意度。 二、基于在线评论情感分析和LDA的物流服务质量评价模型 在网购前,很多用户习惯从在线评论中获取相关信息,但这些在线评论数据存在冗杂、不完整、体量大等问题,使消费者很难决策。本节提出一种基于在线评论情感分析和LDA的物流服务质量评价模型(见图1),找出影响物流服务质量的主要因素,帮助消费者进行物流服务质量评价。 (一)数据采集 为了更好地从在线评论中识别出消费者对于商品物流服务质量的关注维度,本文利用网络爬虫技术获取购物平台上的在线评论数据。考虑到不同商品物流服务质量影响因素可能存在不同,本文将分别采集不同类型商品的评论文本数据作为实验样本。 (二)数据预处理 消费者的语言习惯、无意中的输入错误或是对热门评论的复制等都有可能导致采集的线评论文本数据出现重复与异常,如果不对这些数据进行处理,则会严重影响模型运行的结果,最终降低程序的运行效率与执行的准确度,导致分析结果的偏差。本小节使用Python 3.7对爬取到的在线评论数据进行预处理,包括缺失数据清洗、数据去重、机械压缩去词、短语过滤处理等。 (三)情感分类 情感分类是自然语言处理的一个研究方向,也称倾向性分析(Opinion Analysis),通常用于从社交媒体或电商网站上发布的大量在线评论中提取丰富的意见、情绪或态度。[13]即目标文本中的意见是关于一个实体或实体的方面和属性,可将意见简单地分为两个相反情感极性中的一个,或者将其定位在这两个情感极性之间的连续变量上进行测算,有助于对带有情感色彩的主观性文本进行分析、处理、归纳和推理。[14] 本文使用Python 3.7的SnowNLP库中的情感分析模块进行情感分类。首先,对预处理后的评论文本数据进行预训练并生成预训练模型,然后根据训练集的词语生成情感词典。用情感词典与预训练模型对测试数据即商品评论数据进行情感值计算,并且设定概率P为阈值,当数值大于P时为正面评论,反之为负面评论。图2为情感分析的基本流程图。