[中图分类号]TP301.6 [文献标识码]A [文章编号]1002-4034(2020)01-0128-14 在信息时代,个人和企业都离不开搜索——用百度、Google等搜索网页;用淘宝、京东搜索商家和物品;用美团、饿了么搜索美食;用抖音、哔哩哔哩搜索视频等等。互联网上各式各样的信息资源呈爆炸式海量增长,给用户带来了新的问题——信息过载,即面对海量的信息资源,用户不能从中快速精确地获取所需信息资源。用户为了获取有用信息资源,需要付出更多的时间和精力成本,信息资源的有效使用率极低。搜索引擎是解决信息过载问题的有效策略之一,这需要用户提供关键词作为查询条件,但是由于大部分用户在网站中输入查询条件时,往往难以精准地表达自己的需求,这直接导致了搜索引擎输出的信息资源难以满足用户的需求。 作为一种更精细化的信息过滤器,个性化推荐系统应运而生。当用户没有提出明确需求时,个性化推荐系统收集用户的历史行为数据,通过构造用户兴趣偏好模型挖掘用户的兴趣点,并从海量信息资源中筛选出与用户的兴趣点相关的信息资源推荐给用户。经过几十年的发展,个性化推荐系统在不同领域已经有了广泛的应用,包括新闻网站如Yahoo、社交网站如Facebook、视频网站如YouTube等等。已有的传统协同过滤算法非常依赖评分矩阵,而随着网络用户和信息资源的急剧增加,用户个性化需求愈加迫切,同时,用户在实际应用中积极主动进行评分操作的资源项目数量却较为稀少且评分随意,而根据此用户评分矩阵为用户推荐其可能感兴趣的项目时就会出现较大误差,从而导致用户体验较差。另外传统算法忽略了用户的兴趣点会随着时间而发生改变的现象,因此个性化推荐系统难以准确把握用户当前兴趣偏好,无法及时准确地为用户提供高质量的推荐结果,极大地降低了用户体验。 因此,针对目前协同过滤算法在实际应用中遇到的问题,本研究构建了一种综合的改进协同过滤算法,能够通过深度挖掘用户数据提升协同过滤算法的推荐性能,优化用户的智能体验以及提高网站的行业竞争力,对于推荐系统的未来发展有一定的理论意义。 一、文献综述 (一)用户评分差异研究 针对于用户评分标准不一致的现象,陈颖等(2017)根据用户偏好数量,采用群决策理论中的Schulze社会选择函数对项目评价进行排序,以提高用户评分的可靠性。高茹月(2018)考虑到用户评分差异性,对口碑的离散度进行深入研究,引入多属性评分理论来对看似冲突的结论进行解释。曾一飞(2017)引入用户信任度改进了传统计算用户相似度的方法,用户相似度包括用户信任度和用户评分两个维度,降低了用户评分不一致现象对用户相似度的负面影响。 为了解决用户随意评分带来的影响,Mirbakhsh等和Ling(2015)设置了统一的阈值来规范用户的评分,防止用户随意评分对用户评分矩阵准确度的干扰,以此提高推荐准确率。然而,不同用户进行项目评分时的随意程度不同,设置统一的阈值不能很好地阐释不同用户评分的随意性。王莹(2017)对用户评分与文本评论不一致现象对购买者的购买意愿的影响进行了深入研究,指出评分与文本评论不一致问题会对购买者的情感认知和购买意愿产生较大影响。由于用户评分与评论不一致的问题会严重影响用户的选择。冉猛(2017)等量化评论内容的情感倾向程度,将文本评论的综合情感评分与等级评分进行比较,判断两者之间的一致性。 (二)数据稀疏性研究 数据稀疏是目前导致推荐结果准确率低的主要原因之一(王立军,2009),从存储数据、计算相似度、选择最近邻居和预测评分四方面影响推荐效果。众多学者提出了不同的算法来改进评分矩阵稀疏,其中主要改进方法是通过预测用户未评分项目来填充评分矩阵的显式评分方法和分析用户行为或对用户评论信息进行文本挖掘的隐式评分方法,具体改进情况如表1所示。 表1 数据稀疏性改进方法总结
指标 | 隐式评分方法 | 显式评分方法 | |
特征 | 基于用户行为分析隐含评分信息 | 基于用户评论文本挖掘评分信息 | 预测用户未评分项目以填充评分矩阵 | |
优点 | 能充分利用用户评分外的相关信息,提升数据矩阵的可靠性并缓解矩阵稀疏性 | 能够获得较密集的评分矩阵,一定程度上改进矩阵稀疏性,操作较为方便 | |
缺点 | 关联因素较多,普适性较差,隐式评分的准确性难以保证 | 可扩展性较差,隐式评分的获取与挖掘技术仍存在许多问题,隐式评分的准确性差 | 对数据集有较高要求,且预测值的准确性难以保证 | |
代表文献 | Papagelis等(2005);Pan等(2010,2011) | Julian和Jure(2013);Claudiu等(2013);王全民等(2015);李伟霖等(2017) | Abdelwahab等(2009);夏建勋等(2013) |