基于可信相似度的协同过滤算法(2)
MovieLens[8]是明尼苏达大学Grouplens工作组于1997年创建的一个影片推荐系统,它通过收集和分析用户评分和用户对电影的喜好数据,形成推荐。本文选取公开的MovieLens数据集作为实验数据,该数据由10万条评分数据组成,评分数据是由943个用户对1682个电影项目的评分组成的,每个用户对至少20部电影进行了评分,评分的范围为1-5。评分越高表示用户的兴趣度越高。每部电影都被分为18个电影类别中的一类或者几类。
本文实验将10万条数据按照8:2的比例进行划分,其中训练集占80%(100000×80%=80000条数据),测试集占20%(100000×20%=20000条数据)。实现语言采用Python。
3.2 评价标准
推荐系统的预测评分值与用户的实际评分值越接近,其推荐质量就越高。MAE(Mean Absolute Error)[9]是一种计算所有单个观测值与算术平均值偏差的绝对值的平均值的方法。平均绝对误差能较好地反映预测值与实际值误差的真实情况。MAE的定义如式(14),通过累计计算实际的用户评分与预测的用户评分的偏差的平均值来度量预测的准确性,MAE值越小,表明算法越精确。
3.3 实验结果
对于项目类型可信度的计算,需要先确定项目的属性矩阵T。MovieLens数据集中的电影共有18种特征属性,每部电影都可以同时具有一个或者多个属性,实验中,使用这些属性构造电影的属性矩阵T。对于评分可信度的计算,我们使用式(9)根据用户项目评分矩阵R构造用户参评矩阵X。
实验中,不断改变项目邻居个数K的数目,使用可信相似度来度量项目间的相似性,以传统的基于项目的协同过滤算法CF作为基准参考方法,对基于可信相似度的协同过滤算法MSCF进行了实验,验证优化效果。实验结果如图1所示。
可以看出,一开始随着最近邻数目的增加,两种相似度算法的MAE值都呈现下降的趋势,并且随着近邻数量的不断增大而趋于平稳。在最近邻数量相同的时候,MSCF的实验效果好于CF的实验效果。这是因为传统相似性计算方法未考虑项目类型的相似性和共同评分用户数量对相似性计算结果的影响,导致求得的最近邻可能不符合实际,从而影响了推荐质量。而改进的基于可信相似度的算法MSCF则综合考虑了两者对相似度计算的影响,因而具有较小的平均绝对偏差MAE。
实验证明,本文提出的基于可信相似度的协同过滤算法的推荐效果要优于传统的协同过滤算法。
4 结束语
在传统的基于项目的协同过滤算法中,项目间相似性计算的精确度是影响推荐质量的关键因素。实际应用中,数据的稀疏性对传统的协同过滤算法产生了很大的影响。同时,最近邻集合中项目的类型的不相似性也对推荐系统的推荐精度产生了消极的影响。本文针对传统相似度计算的问题,提出了一种改进的相似性度量方法,从项目类型的相似性和共同评分的用户数两个方面考虑,计算可信相似度,并将改进的算法在真实数据集上进行了实验。实验的结果表明,改进的方法有效地提高了推荐质量。
参考文献:
[1] Sarvar B. Karypis G, Konstan J, et al. Item-based Collaborativefiltering recommendation algorithms[C]. Proceedings of the 10th International World Wild Web Conference. New York,2001:285-295
[2] 邢春晓,高凤荣,思南等.适应用户兴趣变化的协同过滤推荐算法[J].计算机研究与发展,2007.44(2):296-301
[3] 李改,李磊.基于矩阵分解的协同过滤算法[J].计算机工程与应用,2011.47(30):4-7
[4] 李荟,谢强,丁秋林.一种基于情景的协同过滤推荐算法[J].计算机技术与发展,2014.24(10):42-46
[5] 董丽,邢春晓,王克宏.协作过滤稀疏性算法[J].清华大学学报(自然科学版),2009.49(10):154-157
[6] 郭艳红,邓贵仕.协同过滤系统项目冷启动的混合推荐算法[J].计算机工程,2008.34(23):11-13
[7] 彭石,周志彬,王国军.基于评分矩阵预填充的协同过滤算法[J].计算机工程,2013.1(39):175-178
[8] GroupLens lab at the University of Minnesota. MovieLens Dataset.Available at: http://www.grouplens.org/node/12.
[9] B Jeong, J Lee, H Cho. Improving memory-based collaborativefiltering via similarity updating and prediction modulation[J].Information Sciences,2010.180(5):602-612
期刊库(http://www.zgqkk.com),是一个专门从事期刊推广、投稿辅导的网站。
本站提供如何投稿辅导,寻求投稿辅导合作,快速投稿辅导,投稿辅导格式指导等解决方案:省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。
【免责声明】本文仅代表作者本人观点,与投稿辅导_期刊发表_中国期刊库专业期刊网站无关。投稿辅导_期刊发表_中国期刊库专业期刊网站站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。
投稿辅导服务咨询与期刊合作加盟
陆老师联系QQ: 913775405(普刊)
蒋老师联系QQ: 867306987(核心)
刘老师联系QQ: 271374912(核心)
联系电话:18015016272
17327192284
投稿辅导投稿邮箱:zgqkk365@126.com
期刊推荐
- 《课程教育研究》 旬刊 国家级
- 《网络空间安全》(信息安全与技术)月刊 国
- 《价值工程》旬刊 国家级 科技统计源期刊
- 《高教论坛》 月刊 省级
- 《法制与社会》旬刊 省级
- 《中国教育学刊》月刊 14版北大核心
- 《语文建设》 旬刊 14版北大核心
- 《中国绿色画报》 月刊 国家级
- 《社科纵横》季刊 社科类优秀期刊
- 《求索》月刊 14版北大核心期刊
- 《财会月刊》旬刊 14版北大核心
- 《艺术品鉴》 月刊 省级
- 《中华建设》月刊 国家级 建设类优秀期刊
- 《教学与管理》旬刊 北大核心
- 《当代经济》 旬刊 省级
- 《新课程研究》旬刊 省级 教育类优秀学术期
- 《文教资料》 旬刊 省级
- 《学术界》 月刊 双核心
- 《吉林教育》旬刊 省级 教育类学术期刊
- 《中国农业资源与区划》 月刊 14版北大核心
- 《继续教育研究》月刊 北大核心期刊
- 《财经界(学术版)》半月刊 国家级
- 《电影评介》半月刊 14版北大核心
- 《公路交通科技》 月刊 北大核心
- 《新闻传播》月刊 省级 新闻类优秀期刊