网络大数据:现状与展望(上)(4)
网络大数据处理的数据规模从TB级上升到 PB、EB级,面临着如何降低数据存储成本、充分利 用计算资源、提高系统并发吞吐率、支持分布式的非 线性迭代算法优化等众多难题.
4.1分布式数据存储
Google 公司提出的 GFS、MapReduce、BigTable 等技术是分布式数据处理技术的具体实现,是 Google搜索引擎系统三大核心技术.此后,Apache 软件基金会推出了开放源码Hadoop和HBase系 统,实现了 MapReduce编程模型、分布式文件系统 和分布式列簾数据库.Hadoop系统在Yahoo !、 IBM、百度、Facebook等公司得到了大量应用和快 速的发展.但作为一个新兴的技术体系,分布式数据 处理技术在支持大规模网络信息处理及应用等大数 据计算应用方面还存在着很多不足.
行存储(Row-Store)和列存储(Column-Store) 是两种典型的数据库物理存储策略.行存储方式较 为传统,它在磁盘中依次保存每条记录,比较适合事 务操作;列存储方式垂直划分关系表,以列为单位存 储数据,列存储还具有数据压缩(Compression)、 延期物化(Late Materialization)、块循环(Block Iteration)等特性[42].由于数据分析任务往往仅使用 较少字段,因此列存储方式的效率更高.数据分析任 务在大数据应用中更为常见,因此许多系统尽管无法 完全实现列存储的所有特性,但也或多或少地借鉴了 相关概念,包括BigTable、HBase等[43].文献[44]提 出了行列混合式数据存储结构(RCFile)以解决海量 数据快速加载、缩短查询响应时间、磁盘空间高效利 用等问题(如图2所示).RCFile融合了行存储和列 存储的优点,通过行组划分降低数据加载开销,通过 列数据压缩提高存储空间利用率.国际上应用最广 泛的两大分布式数据分析系统Hive和Pig均集成 了 RCFile技术.RCFile已经成为分布式离线数据 分析系统中数据存储结构的事实标准.
分布式数据存储是网络大数据应用的一个重要 环节.但目前的研究工作仍存在一些局限性.针对海 量数据存储和处理所面临的数据总量超大规模、处 理速度要求高和数据类型异质多样等难题,需要开 发支持高可扩展、深度处理的PB级以上分布式数 据存储框架,同时需要研究适应数据布局分布的存 储结构优化方法,以提高网络大数据存储和处理效 率,降低系统建设成本,从而实现高效、高可用的网 络大数据分布式存储.
4. 2数据高效索引
目前的主流查询索引技术是以Google公司的 BigTable为代表的列簇式NoSQL数据库.BigTable
提出了 一种介于关系模型和Key-Value对模型之间 的新数据模型:Ordered Table. Ordered Table 模型 提供了稀疏的、分布式的、持久存储的、基于主键 排序的映射,数据由行、列和时间戳表示.BigTab le 中表的Scheme非常灵活,可以在运行时修改. Ordered Table模型可以对基于主键的区间查询 提供有力的支持,对于涉及多个字段数据的多维区 间查询主要采用二级索引技术,但这引起了性能 问题.
为避免大量随机读,另一种思路是使用聚簇索 引,即同时按索引顺序存储全部数据.为保证多个查 询列均有很好的性能,需要按多个索引列聚簇,但这 将导致存储开销成倍增长.此外还面临着因统计信 息的缺失带来的新的挑战.关系数据库领域处理多 个维度的查询优化时,关键是根据表的统计信息估 算子查询的代价,比如通过记录数量、数据分布的直 方图等估算结果集大小、需要读取的数据块数量等.
文献[45]提出的互补式聚簇索引(CCIndex), 利用多副本为每个索引列各创建_张互为补充的聚 簇索引表,使得索引列上的区间查询对应聚簇索引 表的连续扫描(如图3所示).解决了 NoSQL数据 库的二级索引技术因无法保持连续扫描特性而处理 效率低下的问题.同时,结合查询结果集估算方法, 以挑选最优查询计划.通过禁用底层存储系统的副 本机制来避免引入额外的存储开销,并提供增量式 的快速数据恢复机制.目前,CCIndex技术已应用在 淘宝的数据魔方中.
期刊库(http://www.zgqkk.com),是一个专门从事期刊推广、投稿辅导的网站。
本站提供如何投稿辅导,寻求投稿辅导合作,快速投稿辅导,投稿辅导格式指导等解决方案:省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。
【免责声明】本文仅代表作者本人观点,与投稿辅导_期刊发表_中国期刊库专业期刊网站无关。投稿辅导_期刊发表_中国期刊库专业期刊网站站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。
投稿辅导服务咨询与期刊合作加盟
陆老师联系QQ:
蒋老师联系QQ:
刘老师联系QQ:
联系电话:18015016272
17327192284
投稿辅导投稿邮箱:zgqkk365@126.com
期刊推荐
- 《校园英语》旬刊 省级 教育类学术期刊
- 《吉林教育》旬刊 省级 教育类学术期刊
- 《文教资料》 旬刊 省级
- 《科技风》半月刊 省级 科技类优秀期刊
- 《价值工程》旬刊 国家级 科技统计源期刊
- 《中国实验方剂学杂志》 半月刊 北大核心
- 《电影评介》半月刊 14版北大核心
- 《社科纵横》季刊 社科类优秀期刊
- 《求索》月刊 14版北大核心期刊
- 《中华建设》月刊 国家级 建设类优秀期刊
- 《继续教育研究》月刊 北大核心期刊
- 《网络空间安全》(信息安全与技术)月刊 国
- 《新闻传播》月刊 省级 新闻类优秀期刊
- 《财会月刊》旬刊 14版北大核心
- 《体育文化导刊》月刊 体育类双核心期刊
- 《机械研究与应用》双月刊 省级 机械应用类
- 《公路交通科技》 月刊 北大核心
- 《教学与管理》旬刊 北大核心
- 《新课程研究》旬刊 省级 教育类优秀学术期
- 《中国医药指南》 旬刊 国家级
- 《高教论坛》 月刊 省级
- 《课程教育研究》 旬刊 国家级
- 《语文建设》 旬刊 14版北大核心
- 《教育发展研究》 半月刊 双核心
- 《学术界》 月刊 双核心


