基于复杂网络的电信大数据处理研究
〔摘要〕文章针对目前电信运营商在大数据处理中的实际需求,全面分析研究了关于复杂网络在大数据处理中的关键技术和具体应用,深入讨论了复杂网络在静态数据、动态数据和社团挖掘等方面的实用,为目前电信大数据的处理提供了一种比较实用的方法。
〔关键词〕复杂网络;电信大数据;静态数据;动态数据;社团划分
〔中图分类号〕G434〔文献标识码〕A〔文章编号〕1008-0821(2014)06-0066-04
大数据是继云计算、物联网之后信息通信技术产业界又一次颠覆性的技术变革。对于整个产业而言,大数据市场是块等待挖掘的“金矿”,因此,如何充分利用大数据,并使其进一步发展壮大,也成为整个业界共同探究的热点话题。在大数据领域探索中,相较于其他企业,电信运营商由于在数据资源、基础资源、平台资源上拥有先天优势,因此对于大数据的探索需求更为深入。但目前电信业在经历近十年来的变革后,各种商业模式被打破。尽管电信运营商一直积极地推进4G网络建设,但网络的持续扩容与升级并未给电信运营商带来十分可观的收入,并且,更为严峻的是,在大数据时代,电信运营商还面临着来自数据、管理方面的巨大挑战。海量的半结构化和非结构化的数据大大降低了数据处理的效率,给运营商带来了巨大的数据存储和读写压力。如若不能缩短数据处理的周期,很多数据的价值都会被极大地稀释。此外,庞大的数据规模和复杂的数据种类也给运营商带来了管理层面的难题。
1电信运营商大数据应用及系统框架
电信运营商关于大数据的应用主要包括以下4种类型。首先,是基本的语音数据分析,运营商可以利用自动语音识别数据对自身的产品进行服务,并通过用户偏好分析,及时、准确进行业务推荐,强化客户关怀,这样就可以不断改善用户体验,增加用户的信息消费;其次,网络流量分析,主要指通过大数据分析网络的流量、流向变化趋势,及时调整资源配置,还可以分析网络日志,进行全网络优化,不断提升网络质量和网络利用率;第三,在企业经营层面,可以通过业务、资源、财务等各类数据的综合分析,快速准确地确定公司经营管理和市场竞争策略;第四,在业务创新层面,可以在确保用户隐私不被侵犯的前提下,对数据进行深度加工,对外提供信息服务,为企业创造新的价值。这样,大数据将帮助运营商实现从网络服务提供商,向信息服务提供商的转变。
结合电信运营商的业务情况以及目前大数据的挑战,业界提出了针对电信运营商大数据管理总体系统框架模型,其核心主要包括4层,即物理层、数据层、模型层和应用层。其中数据层是整个运营商大数据管理的核心部分,为上层应用提供数据支持(如图1所示)。
2电信大数据解决方案与需求分析
目前,中国移动采用Apache Hadoop软件的英特尔分发版来消除数据访问瓶颈和发现用户使用习惯,开展更有针对性的营销利用,同时利用Hadoop分布式数据库(Hadoop HBase)扩展存储。中国联通也是利用Hadoop来实现对大数据的存储和分析,构建了基于Hadoop的结构化访问数据库,还采用数据仓库技术,针对海量数据进行高性能查询和分析工作。但海量数据的出现、数据结构的改变,也给运营商的大数据管理及分析带来了挑战。主要表现在:一是由于多种业务的发展、市场需求的变化和网络规模的扩大使得运营商大数据迅速的增加,这增加了运营商大数据存储和处理的难度,使得现有数据仓库无法线性扩容,这表明传统的数据仓库无法有效存储日益增长的业务数据;二是由于新型大数据服务不同于传统通信业务分析特点,需要对内容等非结构化、大容量信息进行多用户、多应用、实时有效的分析,传统的架构和数据仓库处理已不能满足新的信息服务需求。因此,运营商需要建立新型大数据中心,来存储、分析和处理海量数据。电信运营商采用的传统数据挖掘方法主要包括描述和预测两个方向,具体方法包括关联分析、分类和聚类等,这些方法较多应用于关系数据库系统,而目前电信运营商所面对的数据越来越多样化,复杂化程度不断增加,非结构化数据占据的比重不断攀升,传统的数据挖掘办法已经不能跟上电信业大数据处理的实际需求。自从1998年Watts和Strogatz在Nature杂志上发表文章,引入了小世界网络模型之后,国内外学界注意到了复杂网络研究的趋势,开始展开深入的研究。复杂网络研究的内容主要包括:网络的几何性质,网络的形成机制,网络演化的统计规律,网络上的模型性质,以及网络的结构稳定性,网络的演化动力学机制等问题。上述复杂网络的研究内容恰恰与电信运营商目前所拥有的大数据内容和处理需求紧密地结合在一起,为电信运营商的大数据处理开辟了一条崭新的方向。
3基于复杂网络大数据处理
针对电信运营商大数据处理的第一步是数据预处理及准备,以发生最多、数据量最大的客户通话行为为例,它和用户通话行为直接相关,其中涵盖的具体内容如表1所示,如通话时长,基站信息等等,如果再加入个人年龄、性别等信息,则构成多维数据,为大数据分体提供更多基础数据。接下来,针对基于复杂网络的电信大数据分析研究可以从以下3个方面展开,分别是静态研究、动态研究和社团挖掘研究。
3.1静态数据研究
电信的运营数据的结构随着时间在不断地发生变化,而且是比较典型的多维数据,复杂网络的最初研究对象是某个网络在某个特定时间段的内容,譬如,某个市、区在某几个月的通话数据,由此可以形成一个典型的网络。在这里,以IEEE VAST 2008的数据集作为研究对象,它包括了一组涉及400人左右的10天通话数据,通话记录数为9 834条。
利用复杂网络方法对远程教育网络的研究起始于基本的3项内容,它们分别是度与度分布、平均路径长度和聚类系数。
度的意义是指与该页面节点连接的其他页面节点的数目。在对电信通话数据的实际研究中主要是指一个用户存在的与其他用户通话的信息数目。一个用户节点的呼出与呼入数量又分为出度和入度。所有用户节点度的平均值称为网络的平均度。数据显示该通话记录的节点平均度为3-9,从复杂网络研究角度出发,一个用户节点无论从出度或入度的大小都直接与该用户的重要程度相关。由图2和图3可以看出,个别用户节点拥有较大的出度与入度,他们在整个网络中扮演了核心节点的角色,通过这几个节点将其他用户紧密地联系在一起。
期刊库(http://www.zgqkk.com),是一个专门从事期刊推广、投稿辅导的网站。
本站提供如何投稿辅导,寻求投稿辅导合作,快速投稿辅导,投稿辅导格式指导等解决方案:省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。
【免责声明】本文仅代表作者本人观点,与投稿辅导_期刊发表_中国期刊库专业期刊网站无关。投稿辅导_期刊发表_中国期刊库专业期刊网站站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。
投稿辅导服务咨询与期刊合作加盟
陆老师联系QQ: 913775405(普刊)
蒋老师联系QQ: 867306987(核心)
刘老师联系QQ: 271374912(核心)
联系电话:18015016272
17327192284
投稿辅导投稿邮箱:zgqkk365@126.com
期刊推荐
- 《课程教育研究》 旬刊 国家级
- 《网络空间安全》(信息安全与技术)月刊 国
- 《价值工程》旬刊 国家级 科技统计源期刊
- 《高教论坛》 月刊 省级
- 《法制与社会》旬刊 省级
- 《中国教育学刊》月刊 14版北大核心
- 《语文建设》 旬刊 14版北大核心
- 《中国绿色画报》 月刊 国家级
- 《社科纵横》季刊 社科类优秀期刊
- 《求索》月刊 14版北大核心期刊
- 《财会月刊》旬刊 14版北大核心
- 《艺术品鉴》 月刊 省级
- 《中华建设》月刊 国家级 建设类优秀期刊
- 《教学与管理》旬刊 北大核心
- 《当代经济》 旬刊 省级
- 《新课程研究》旬刊 省级 教育类优秀学术期
- 《文教资料》 旬刊 省级
- 《学术界》 月刊 双核心
- 《吉林教育》旬刊 省级 教育类学术期刊
- 《中国农业资源与区划》 月刊 14版北大核心
- 《继续教育研究》月刊 北大核心期刊
- 《财经界(学术版)》半月刊 国家级
- 《电影评介》半月刊 14版北大核心
- 《公路交通科技》 月刊 北大核心
- 《新闻传播》月刊 省级 新闻类优秀期刊