云数据管理系统中查询技术研究综述(2)
数据分析主要用于生成报表、数据挖掘和决策支持等.与事务型数据处理不同,在分析型的数据处理中,数据是一次写多次读的,更新操作较少.数据分析可以在并行数据库上完成,但是随着数据规模的扩大以及对性能要求的提高,并行数据库系统的维护需耗费大量的资金及人力.云数据管理系统在扩展性和性价比上均占有天然的优势,其中类BigTable系统[7](BigTable、HBase②、Hypertable?)、HadoopDB[8]和Hive[9]等支持MapReduce框架的系统是面向数据分析型应用的.
随着Web2.0技术的发展,超大规模和高并发的社交网站逐渐兴起,参与人数迅速攀升.以微博网站Twiter为例,2010年2月用户每日发送的微博数量是5千万,而到了2011年3月用户每日发送的微博数量达到1亿4千万④,用户和网站交互产生大量动态信息.这种海量Web数据管理应用要求数据库能够满足高并发的数据读写和高效实时的数据访问,同时要求数据库具备可扩展性以应付数据的不断快速增长.关系数据库在这些需求面前显得力不从心,云数据管理系统则以灵活的扩展性和高性能的数据读写受到Web2.0网站的青睐,其中Cassandra?、CouchDB⑥和PNUTS[4]等系统广泛应用在Face-book、Twitter和Yahoo!等大型网站中.
2.2云数据的特点
云计算将大量用网络连接的计算资源进行统一管理和调度,以服务的方式为用户提供计算资源、存储资源和软硬件资源,其最鲜明的特点是可扩展性、高可用性和按需服务性.云计算环境中存储和管理的数据具备如下特点[1,8,10-11]:
(1)海量性.随着移动设备的普及、传感器技术的发展以及社交网络的扩大,云计算平台存储和管理的数据量十分庞大,了B级别和PB级别的数据规模十分常见.
(2)种类多样性.随着Web2.0的兴起,互联网应用不断推陈出新.一些新兴应用领域(微博、社交网络等)所处理的数据除了传统数据库里的结构化数据,还包括半结构化数据和非结构化数据,使得云计算平台中的数据种类纷繁多样.
(3)异地备份.数据的高可用性是云计算的重要特征之一,而这种面临软硬件错误的高水平容错性是通过对用户透明的数据异地备份实现的.
云数据的特征导致了传统的关系数据库无法满足其多样化的应用需求.云数据管理系统必须提供灵活的数据模型以有效管理多样化的数据,并针对数据分布和冗余的特性设计相应的存储方式和查询优化策略,从而向用户提供"按需所取"、可靠的、高性能的数据存取与查询服务.
2.3云数据查询处理的目标
为了提供高效可靠的云数据管理服务,云数据的查询处理技术需要达到以下目标
(1)可扩展性.云平台的规模大小不一,小的私有云平台规模为十几个节点,大的公有云平台规模可达到几千个节点①[15].此外,云计算提供的是一种"按需计费"的服务方式,随着应用需求的变化,云平台的规模也会发生变化.这就要求云数据管理系统中的查询处理及优化算法具备良好的扩展性,不仅能够扩展到庞大规模的云平台上,而且能够实现资源的可动态增长及其带来的性能提升.
(2)可用性.云平台由大量廉价计算机构成,与高性能服务器构成的分布式系统相比,云平台的硬件出错率较高.云数据管理系统需要将软硬件错误看成系统运行的常态,错误发生时既要保证数据不丢失,又要保证数据的读写操作能够正常进行.
(3)在异构环境运行的能力.随着应用的发展以及数据量的不断增长,云平台势必要通过增加新的节点来提高计算和存储能力.因此,保证一个云平台中所有节点的硬件配置同构是非常困难的.即使
在一个硬件配置相同的环境中,不同节点的软硬件性能也会出现波动[16].云数据的查询技术要有在异构环境运行的能力,从而避免性能较差的节点影响整个系统的运行效率这种"木桶效应"的出现.
(4)丰富灵活的用户接口.一方面,云数据管理系统要提供SQL接口,这样习惯于关系数据库查询语言的用户不必重新学习新的接口或者编程方法,而原来基于关系数据库的各种应用也可以平滑的转移到云上;另一方面,云数据管理系统还要提供UDF(UserDefinedFunction)接口,用户可以根据业务需求自己定义数据查询操作.
(5)高效的数据存取性能.云数据管理系统的软硬件成本远远低于高性能分布式数据库,其处理海量数据的效率也是云计算用户关注的重要问题.云数据管理系统应当针对云数据的特点设计数据分布策略和查询优化相关算法,从而提高其管理海量数据的能力.
云数据管理系统可以通过云计算平台的资源虚拟以及MapRedUCe[15]框架的使用而得到良好的扩展性和可用性,也可以在并行任务调度过程中采取投机任务(speculativetask)[16]等措施保证其在异构环境中运行的能力.从支持的查询接口看,目前大部分云数据管理系统只提供了简单的数据存取接口或者极小化的查询语言,这限制了其对复杂数据查询和分析的支持.从查询性能来看,目前云数据管理系统的查询优化主要针对键值进行,而对非键值的查询主要是依靠批量的全表扫描.因此,用户接口和查询性能是目前云数据管理系统亟待提高的两个方面.
期刊库(http://www.zgqkk.com),是一个专门从事期刊推广、投稿辅导的网站。
本站提供如何投稿辅导,寻求投稿辅导合作,快速投稿辅导,投稿辅导格式指导等解决方案:省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。
【免责声明】本文仅代表作者本人观点,与投稿辅导_期刊发表_中国期刊库专业期刊网站无关。投稿辅导_期刊发表_中国期刊库专业期刊网站站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。
投稿辅导服务咨询与期刊合作加盟
陆老师联系QQ:
蒋老师联系QQ:
刘老师联系QQ:
联系电话:18015016272
17327192284
投稿辅导投稿邮箱:zgqkk365@126.com
期刊推荐
- 《校园英语》旬刊 省级 教育类学术期刊
- 《吉林教育》旬刊 省级 教育类学术期刊
- 《文教资料》 旬刊 省级
- 《科技风》半月刊 省级 科技类优秀期刊
- 《价值工程》旬刊 国家级 科技统计源期刊
- 《中国实验方剂学杂志》 半月刊 北大核心
- 《电影评介》半月刊 14版北大核心
- 《社科纵横》季刊 社科类优秀期刊
- 《求索》月刊 14版北大核心期刊
- 《中华建设》月刊 国家级 建设类优秀期刊
- 《继续教育研究》月刊 北大核心期刊
- 《网络空间安全》(信息安全与技术)月刊 国
- 《新闻传播》月刊 省级 新闻类优秀期刊
- 《财会月刊》旬刊 14版北大核心
- 《体育文化导刊》月刊 体育类双核心期刊
- 《机械研究与应用》双月刊 省级 机械应用类
- 《公路交通科技》 月刊 北大核心
- 《教学与管理》旬刊 北大核心
- 《新课程研究》旬刊 省级 教育类优秀学术期
- 《中国医药指南》 旬刊 国家级
- 《高教论坛》 月刊 省级
- 《课程教育研究》 旬刊 国家级
- 《语文建设》 旬刊 14版北大核心
- 《教育发展研究》 半月刊 双核心
- 《学术界》 月刊 双核心


