基于核函数的谱嵌入聚类算法(4)
分析图2尺度参数σ的敏感度实验图像:横向来看,该参数在三种算法上都是比较敏感的,这是符合尺度参数σ的径向作用特性的,所以实验结果在0.0001~10000的区间上的浮动比较大;纵向来看,KSEC算法的实验性能在整个区间上都是高于其他两种算法的,尤其在Wine、WDBC、Urbanland、USPS、Yale、COIL20、Isolet和ORL这8个数据集上,它们的谱聚类准确率是远高于SEC算法的,高维非线性数据在该算法上的聚类效果得到了很大的提升。分析图3正则化参数u的敏感度实验图像:除了WDBC数据集和Yale数据集,KSEC算法在其他数据集上都表现出了比SEC算法更稳定的特性,也就是说参数u在KSEC算法上不敏感,这个特性有利于KSEC算法逼近全局最优解,获得更好的谱聚类效果。另外,从谱聚类精度上来看,KSEC算法也是高于SEC算法和SCA算法的,与这两种算法相比较,KSEC算法能更好地对高维数据以及非线性的数据进行降维处理,同时进行高质量的谱嵌入聚类。
综合以上实验分析,KSEC算法很好地实现了谱聚类算法的本质要求,在任意形状的数据集上都能够逼近全局最优解,并且它在高维数据和非线性数据上的聚类性能是优于传统谱聚类算法的,这一良好特性将会把谱聚类算法的应用拓展到更为广阔的领域。
4.4关于聚类数目的讨论
在聚类算法中,聚类数目的确定一直是一个挑战性的问题,目前几乎所有的聚类算法都是需要提前给定聚类数目的,即本文算法1中的输入参数c。本文在人工数据集上进行了尝试性探索,通过实验观察到在谱聚类中分析Laplacian矩阵的特征值,可以获取一些类别信息。如图4所示,图(a是具有200个样本的人工数据集Toydata的直方图,它共有4类,图(b是其对应的Laplacian矩阵的前40个最小特征值。在图(b上可以看到,第5个特征值和第4个特征值之间有一个明显的间隔,第9个和第8个之间也有类似的间隔,而间隔之前的特征值数目正好对应数据集的类别数。同时也可以观察到,第1个间隔前的4个特征值是小于第2个间隔前的4个特征值的,所以从谱聚类算法的目标出发,应该选择前4个特征值,即最小的c个特征值。
5结语
本文在研究和学习了谱嵌入聚类算法后,将非线性的高维数据通过核函数映射后实现线性可分,根据数据的簇分配矩阵总是可以嵌入到一个线性空间的结论建立了KSEC模型,并提出了KSEC算法。在真实的UCI数据集上进行的大量实验表明,改进后的算法对数据有更好的聚类效果,特别是在高维非线性数据上。本文下一步的工作是将改进后的算法进行实际应用,解决现实生活中遇到的需要对海量高维数据进行处理的问题,例如在处理遥感卫星影像上的研究。
期刊库(http://www.zgqkk.com),是一个专门从事期刊推广、投稿辅导的网站。
本站提供如何投稿辅导,寻求投稿辅导合作,快速投稿辅导,投稿辅导格式指导等解决方案:省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。
【免责声明】本文仅代表作者本人观点,与投稿辅导_期刊发表_中国期刊库专业期刊网站无关。投稿辅导_期刊发表_中国期刊库专业期刊网站站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。
投稿辅导服务咨询与期刊合作加盟
陆老师联系QQ: 913775405(普刊)
蒋老师联系QQ: 867306987(核心)
刘老师联系QQ: 271374912(核心)
联系电话:18015016272
17327192284
投稿辅导投稿邮箱:zgqkk365@126.com
期刊推荐
- 《课程教育研究》 旬刊 国家级
- 《网络空间安全》(信息安全与技术)月刊 国
- 《价值工程》旬刊 国家级 科技统计源期刊
- 《高教论坛》 月刊 省级
- 《法制与社会》旬刊 省级
- 《中国教育学刊》月刊 14版北大核心
- 《语文建设》 旬刊 14版北大核心
- 《中国绿色画报》 月刊 国家级
- 《社科纵横》季刊 社科类优秀期刊
- 《求索》月刊 14版北大核心期刊
- 《财会月刊》旬刊 14版北大核心
- 《艺术品鉴》 月刊 省级
- 《中华建设》月刊 国家级 建设类优秀期刊
- 《教学与管理》旬刊 北大核心
- 《当代经济》 旬刊 省级
- 《新课程研究》旬刊 省级 教育类优秀学术期
- 《文教资料》 旬刊 省级
- 《学术界》 月刊 双核心
- 《吉林教育》旬刊 省级 教育类学术期刊
- 《中国农业资源与区划》 月刊 14版北大核心
- 《继续教育研究》月刊 北大核心期刊
- 《财经界(学术版)》半月刊 国家级
- 《电影评介》半月刊 14版北大核心
- 《公路交通科技》 月刊 北大核心
- 《新闻传播》月刊 省级 新闻类优秀期刊