协同过滤数据稀疏性问题研究

人气指数:点发布时间:2014-08-19 14:13 来源：http://www.zgqkk.com 作者：顾立志

分享到：

　　摘要：本文简要介绍了协同过滤推荐技术的核心思想以及优缺点，重点描述了协同过滤推荐系统的数据稀疏性问题，并总结了四种解决数据稀疏性问题的方法，分别是简单填值、聚类、降维和结合内容的过滤方法。

　　关键词：协同过滤；稀疏性；降维

　　中图分类号：TP391

　　随着Internet的快速发展，信息过载的问题变得越来越严重。推荐系统就是为了提高用户从大量的数据中找到自己需要信息的效率而产生的。推荐系统主要分为三种，分别是基于内容、基于协同过滤技术和将两种技术融合的推荐系统。其中，协同过滤推荐系统以其特有的优势得到了更为广泛的应用。例如，大型网络书店亚马逊、国外知名的购物网店ebay、国内的淘宝网等电子商务网站中的推荐系统都采用了协同过滤的推荐方法。另外，还有一些专门的协同推荐系统的网站，例如著名的 Ringo音乐推荐系统、Jester笑话推荐系统等。

　　1 协同过滤算法简介

　　1.1 协同过滤核心思想以及分类

　　协同过滤以其特有的优势成为众多专家和学者关注的焦点，目前在各大电子商务网站得到广泛应用。该算法的思想是：根据系统中已有的评分数据计算用户（或项目）之间的相似性；根据计算得到的相似性找出当前用户（或项目）的最近邻；根据最近邻中用户（或项目）的评分预测当前用户对其他项目的评分值，最终根据评分值大小确定是否将该项目推荐给当前用户。

　　协同过滤推荐算法可以分为基于用户的协同过滤（UCF）与基于项目的协同过滤（ICF）。这两个算法的共同点在于二者都是根据用户-项目评分矩阵建立推荐系统模型，从而为用户提供个性化推荐服务的。不同之处在于UCF是根据用户之间的相似性找到目标用户的最近邻集，然后根据该集合中用户的评分情况确定目标用户的推荐结果。而ICF则是通过分析项目之间的相似性，最终将与目标用户评价较好的项目相似度较高的作为推荐列表的结果。

　　1.2 协同过滤的优缺点

　　基于协同过滤算法的推荐系统主要有以下优点：

　　（1）协同过滤算法的数据源是用户对项目的评价信息，不用考虑项目是否属于同一类别，所以协同过滤算法可以从属性不同的项目中提取有用的信息。

　　（2）协同过滤算法同时考虑了当前用户和其他用户的评价信息，这样能够增加产生推荐可利用的信息量，从而提高推荐的质量与效率。

　　（3）协同过滤算法的新颖性较高，推荐结果可能是用户意想不到的。

　　目前，协同过滤技术已经得到了广泛应用。但是网站商品信息量和用户人数在不断攀升，网站的结构也越来越复杂，因此基于协同过滤的推荐系统面临着一系列问题[1]，比如：稀疏性问题、冷启动问题和可扩展性问题。

　　冷启动问题分为系统冷启动、用户冷启动和项目冷启动。系统冷启动问题主要解决如何在一个新开发的网站上设计个性化推荐系统，从而在网站刚发布的时候就能让用户体验到个性化推荐服务。用户冷启动主要解决的是在没有新用户的行为数据时如果为其提供个性化推荐服务。项目冷启动主要解决将新上架的项目推荐给可能对它感兴趣的用户。另外，电子商务网站、商品、用户的数量都在不断增加，推荐系统将面临严重的可扩展性问题。

　　2 稀疏性问题描述

　　稀疏性问题是推荐系统面临的主要问题，也是导致推荐系统质量下降的重要原因。在一些大型网站如亚马逊，用户评价过的项目质量相对网站中总项目数量可谓是冰山一角，这就导致了用户项目评分矩阵的数据极端稀疏，在计算用户或项目的最近邻时准确率就会比较低，从而使得推荐系统的推荐质量急剧下降。

　　3 稀疏性问题解决方式

　　稀疏性问题直接影响这推荐系统的质量问题，因此受到了学术界和应用界的高度关注。目前提出的解决稀疏性问题的方式已经有很多种，常用的有：简单填值、聚类、降维、结合内容的过滤方法等。

　　3.1 简单填值的方法

　　填值法就是用一个固定的数值填充系统中所有的未评过分的项目，从而解决稀疏性问题一种方法。常用固定值的选取方法有两种：

　　（1）缺省值可以设为评分的平均值，或者对前两者进行某种合成。该方法在一定程度上能缓解数据稀疏性问题，但在用户和项目数量很大的情况下填充所有缺省值，完成推荐的计算量也比较大，因此适合于小规模数据库。另外用户对未评过分的项目评分情况会有一些差异，该方法采用统一的数值进行填充，没有考虑到用户的兴趣差异，抹杀了用户的个性。

　　（2）众数法。众数法就是将目标用户所有评分的众数作为新项目预测评分的方法。从统计学的角度来说，采用众数法这种预测方法的准确率会比较高，但是在实际生活中，采用众数法预测用户对项目的评分可能会是错误的。另外，用户对项目的评分可能会存在多个众数或者没有众数的情况，因此众数法的应用局限性比较大。

　　3.2 聚类的方法

　　该方法根据用户兴趣之间的差异，利用某种聚类算法将系统中的所有用户划分为不同的群体；系统把用户所在群体的中心值作为用户对未评项目的评分预测值，进行用户项目评分矩阵的填充。主要的聚类方法有k-means聚类和遗传聚类等。聚类方法针对的对象可以是用户，也可以是项目，还可以对用户和项目均进行聚类。其中，对用户进行聚类时首先要对用户-项目评分数据库进行聚类，然后选择目标用户所属类的用户作为最近邻集合；对项目进行聚类时根据用户对项目评分的相似性对项目进行k-means聚类生成相应聚类中心，在此基础上计算目标项目与聚类中心的相似性，从而只需在与目标项目最相似的若干个聚类中就能寻找到目标项目的最近邻，并能够产生推荐列表，这种方法是由邓爱林等人提出的[2]；对用户和项目均进行聚类的方法主要有层次聚类、biclustering聚类和co-clustering聚类等。聚类的方法利用相似群体的评分信息提高了预测的准确度，但不能体现用户间的爱好区别，因此推荐结果的准确率并没有得到显著提高。

期刊库（http://www.zgqkk.com），是一个专门从事期刊推广、投稿辅导的网站。
　　本站提供如何投稿辅导，寻求投稿辅导合作，快速投稿辅导，投稿辅导格式指导等解决方案：省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。

　　【免责声明】本文仅代表作者本人观点，与投稿辅导_期刊发表_中国期刊库专业期刊网站无关。投稿辅导_期刊发表_中国期刊库专业期刊网站站对文中陈述、观点判断保持中立，不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考，并请自行承担全部责任。

协同过滤数据稀疏性问题研究

投稿辅导服务咨询与期刊合作加盟

期刊推荐