大数据时代企业所面临的挑战与应对
摘 要:移动互联网的高速发展,带动了社交网络、物联网、云计算的广泛应用,也带来了数据的爆炸式膨胀。显然,大数据时代已经到来。本文从大数据的基本特点出发,讨论当前企业实施大数据所面临的挑战,并提出了为应对挑战,企业所应培养的能力及应对策略。
关键词:大数据;企业管理
中图分类号:F49
近年来,伴随着移动互联网的高速发展,图片、音频、视频、地理位置信息、传感数据等半结构化、非结构化数据大量涌现,同时社交网络、物联网、云计算也得到了广泛应用。这些使得互联网中的个体发布和获取数据的行为变得更加准确和快速。在以互联网应用、电子商务等为首的应用领域中,相关数据的规模与种类都在以极快的速度增长。国际数据公司(IDC)的数字宇宙研究报告称,2011年全球被创建和被复制的数据总量是1.8ZB。同时该报告预测,到2020年,全球数据量规模将达到35ZB。显然,大数据时代已悄悄来临。
1 大数据时代
目前来看,“大数据”还没有统一的定义。IT行业的大型机构和组织都提出了“大数据”定义,其中以麦肯锡2011年在题为《大数据:下一个竞争、创新和生产力的前沿》的研究报告中的定义被引用最频繁。麦肯锡认为,“大数据”是指其大小超出了传统意义上的尺度,且典型数据库软件难以对其进行采集、储存、管理和分析等处理的数据集。[1]一方面,大数据标准下的数据集大小是变化的,会随着时间推移、技术进步而增长;另一方面,应用大数据的不同领域中,符合其行业标准的大数据集规模也有差别。该报告同时指出,当前,数据已经渗透到各个行业和业务职能领域,并逐步上升成为重要生产因素;而大数据的广泛应用将预示着新一波生产率增长和消费者盈余浪潮的到来。[1]
目前,信息技术领域认为大数据具有4V的特点。一是数据规模巨大(volume)。目前全球的数据量已经达到ZB级别,并且现行的单个大型应用的数据库中的数据通常也都是在PB级别或以上。二是数据类型众多(variety)。传统数据库以文本格式等结构化数据为主要内容的,大数据时代的数据库包括了图片、音频、视频、网络日志、地理位置信息、传感数据等多种半结构化和非结构化数据,而且这些数据通常占据了系统中的大部分存储资源。三是数据价值密度低(value)。以目前广泛应用的监控系统为例,监控系统24小时不间断地产生监控音视频数据,但是真正能提供有效信息的可能是几个月数据中的几分钟,甚至是几年数据中的几分钟。另一个例子是医学检查通常也会产生大量数据,但是,医生往往是通过其中的少量甚至个别数据对患者进行诊断和治疗。四是数据变化快(velocity)。这包含两方面的要求:既要保证对大数据的整体的高效处理,又要保证对部分数据进行实时的处理和反馈。
大数据的开放和应用,对社会、商业和个人已经产生了巨大的影响,从某些角度,已经上升到了国家战略层面。2012年3月,奥巴马政府出台了“大数据研究和发展计划”,计划投入2亿美元,用于推动大数据相关的收集、存储、保留、管理、分析和共享大数据技术的研究,以提高美国的科研、教育及国家安全能力。我国“核心电子器件、高端通用芯片及基础软件产品”(简称“核高基”)科技重大专项也将非结构化数据管理作为需要重点突破的关键技术加以重点支持。2012年5月联合国推出了名为“全球脉动”(Global Pulse)的新项目。该项目旨在通过为各国提供对互联网实时数据的分析,更及时地了解人们所面临的困难和挑战,尤其是全球性危机的影响,并提出改善决策,为宏观经济的发展决策提供支持数据及信息。[2]大组织、大机构通过资金支持大数据的科学研究,进而推动大数据科学相关核心技术发展,大数据科学的发展趋势已不可阻挡。
当前大数据几乎推动着生活的方方面面。在科学研究领域,大数据完全改变了天文学、生物信息学、生命科学和物质科学等领域的工作方式。在应用领域,在移动服务、零售制造业、金融业等一批应用较早的领域中,大数据已达到史无前例的规模,而在教育、医疗、城市规划、智能交通、环境建模、节能减排、智能材料、社会计算、金融风险、国土安全、计算机安全等新领域中,大数据也开始展现自己强大的推进力。
2 企业发展大数据所面临的挑战
2.1 数据异构性和不完整性
由于传感器的存在以及人的参与度的提高,在各种应用系统的运行过程中,自动、主动数据大量涌现,这些数据构成了大数据的主要来源。目前,计算机分析算法只能处理同构的数据,并自动忽略细节上的差异。保持数据结构和尺寸的相对一致,能有效提高信息化系统的运算效率。身处大数据时代,人们使用信息时,必然会产生大量的半结构化和非结构化数据。因此,大数据技术首先便是将数据结构化。此外,在数据获取的过程中,如何根据特定应用的需求,在大数据中摒除可能影响判断的错误数据和无关数据,保证数据质量,高效抽取相关的有效数据将非常重要。
2.2 数据量持续性的爆炸式增长
数据量大是大数据的一个基本属性。大数据的数据增长速度已经超过了计算资源的增长速度。由于理器的时钟速度已经很难继续提升,当前主要以增加计算核心数目的方法来提升系统计算能力。计算能力的提升思路已经从提升单核计算能力转变到了如何平衡多个计算节点间的资源调配和并发管理。现在大的计算集群开始出现,如何设计、布置和运行计算节点群变得越来越重要。
数据具有广泛可用性,从高速膨胀的大数据中提取价值的能力正是大数据时代我们所欠缺的。一些数据的价值被挖掘出来,但更多的数据其价值却一直被隐藏或丢弃,没能被充分利用起来,两种数据数据量之间差距巨大,形成了大数据鸿沟,对多种类型数据构成的异构数据集进行交叉分析的技术将在大数据时代创造巨大的价值。
2.3 数据处理的时效性要求
在大数据背景下,许多应用要求对分析结果进行实时交互。这要求系统预先计算好部分结果,在新数据到达并分析完毕后,再对结果进行增量结合,迅速得出结果。大数据具有规模大及增长快的双重特性,对于一个给定的大数据集,通常需要迅速定位所搜索的数据。在实际应用中,同样的搜索可能会反复出现。需要设计新的索引结构来支持这类查询。当数据量不断增长而处理时效又很有要求的时候,如何设计和建立索引将变得很重要。
2.4 数据隐私的保护
数据的隐私保护从来既是技术问题,又是社会问题。要保障大数据健康有序地快速发展,必须从这两方面妥善解决数据隐私保护的问题。如何分享隐私数据,才能让数据在正常使用的同时不会泄露,就目前而言,还没有特别有效的方法。通常我们共享很多看起来不那么重要的私人数据,如地理位置信息等,似乎不共享的信息就是安全的。但对于有些并不由自己保管的一些信息,如健康记录信息、消费信息等,也很有可能泄露。数据泄露会带来什么直接后果,泄漏后的数据和我们共享的数据会以怎样的形式与其它数据一同被交叉连接起来,连接分析后的数据有多少价值和用途我们根本不知道。虽然现有的关于隐私保护的探究在学术领域取得了一定的成果,但是这些研究成果还不能在实际中广泛应用。大数据时代如何确保信息共享的安全性,如何做好信息共享安全控制将会成为一个重要的研究方向。
2.5 跨平台数据的关联与整合
目前企业中的几个现状:不同的业务模块的数据分布在不同的系统平台,各项数据相互独立,难以在一个平台进行集成整合;不同业务模块间,数据不共享、不关联;收集整合核心业务数据,但常常忽略非核心数据。数据随着业务模块的相互分离而被割裂开来,数据之间缺少关联,企业自然就失去了各项数据连接后所能带来的价值。现行系统中,数据来源不同,数据标准难以统一,企业将如何实现跨平台对数据进行关联整合也是其在大数据时代谋求发展的一个巨大挑战。
期刊库(http://www.zgqkk.com),是一个专门从事期刊推广、投稿辅导的网站。
本站提供如何投稿辅导,寻求投稿辅导合作,快速投稿辅导,投稿辅导格式指导等解决方案:省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。
【免责声明】本文仅代表作者本人观点,与投稿辅导_期刊发表_中国期刊库专业期刊网站无关。投稿辅导_期刊发表_中国期刊库专业期刊网站站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。
投稿辅导服务咨询与期刊合作加盟
陆老师联系QQ:
蒋老师联系QQ:
刘老师联系QQ:
联系电话:18015016272
17327192284
投稿辅导投稿邮箱:zgqkk365@126.com
期刊推荐
- 《校园英语》旬刊 省级 教育类学术期刊
- 《吉林教育》旬刊 省级 教育类学术期刊
- 《文教资料》 旬刊 省级
- 《科技风》半月刊 省级 科技类优秀期刊
- 《价值工程》旬刊 国家级 科技统计源期刊
- 《中国实验方剂学杂志》 半月刊 北大核心
- 《电影评介》半月刊 14版北大核心
- 《社科纵横》季刊 社科类优秀期刊
- 《求索》月刊 14版北大核心期刊
- 《中华建设》月刊 国家级 建设类优秀期刊
- 《继续教育研究》月刊 北大核心期刊
- 《网络空间安全》(信息安全与技术)月刊 国
- 《新闻传播》月刊 省级 新闻类优秀期刊
- 《财会月刊》旬刊 14版北大核心
- 《体育文化导刊》月刊 体育类双核心期刊
- 《机械研究与应用》双月刊 省级 机械应用类
- 《公路交通科技》 月刊 北大核心
- 《教学与管理》旬刊 北大核心
- 《新课程研究》旬刊 省级 教育类优秀学术期
- 《中国医药指南》 旬刊 国家级
- 《高教论坛》 月刊 省级
- 《课程教育研究》 旬刊 国家级
- 《语文建设》 旬刊 14版北大核心
- 《教育发展研究》 半月刊 双核心
- 《学术界》 月刊 双核心