网络大数据：现状与展望(上)(3)

人气指数:点发布时间:2015-12-21 09:00 来源：http://www.zgqkk.com 作者：王元卓靳小龙程学旗

分享到：

　　总体而言，尽管与网络大数据研究密切相关的数据库、数据挖掘、机器学习和知识工程等领域近些年来都有很大的进展，甚至在许多不同的领域得到了深入的应用，但由于网络大数据规模海量、关系复杂等根本特性，使得相关领域的研究成果难以被直接借鉴于网络大数据的研究.因此，网络大数据的研究需要_套全新的理论和方法来进行方向性的指导.但到目前为止，甚至连大数据的精确定义还缺乏 _个统一的标准.网络大数据科学与技术这门学科的内涵和外延还缺乏严格的限定和详实的论证；在大数据的环境下，传统“假设、模型、检验”的科学方法受到质疑，从“数据”到“数据”的第四范式还没有建立，需要一个完备的新的理论体系来指导该学科的发展和研究．
　　3网络空间感知与数据表示
　　网络数据具有跨媒体关联、强时效演变、多主体互动等特点，使得我们对网络大数据的态势感知、质量评估、融合表示等均面临新的问题.
　　3.1网络大数据的感知与获取
　　按照网络空间中数据的蕴藏深度，整个网络空间可以划分为Surface Web和Deep Web[26]，或称作 Hidden Web[27].Surface Web 是指 Web 中通过超链接可被传统搜索引擎爬取到的静态页面，而 Deep Web则由Web中可在线访问的数据库组成. Deep Web的数据隐藏在Web数据库提供的查询接口后面，只有通过向查询接口提交查询才能获得.与 Surface Web相比，Deep Web所包含的信息更丰富.同时，Deep Web具有规模大、实时动态变化、异构性、分布性以及访问方式特殊等特点.为了充分利用Deep Web中的数据资源，需要充分获取Deep Web中高质量的数据并予以集成，整个集成过程可以分为数据获取、数据抽取和数据整合3个环节. 3.2网络大数据的质量评估与采样对网络空间中多源数据进行质量评估，一方面需要建立数据模型或提出适当的采样方法；另一方面，需要提出对采样数据的评价与检验方法.网络数据采样是将数据从Web数据库提取出来的过程.传统的数据库采样是随机从数据库中选取数据记录以获得数据库的统计信息的过程，典型方法可参考文献[28-30].但是要获取Web数据库中的数据只能通过向查询接口提交查询，不能自由地从Web数据库获取记录，故而传统方法不能实现对Web数据库的采样.
　　针对Web数据库采样，HIDDEN-DB-SAM- PLER[31]是第一项工作，它给出了对范围属性和分类属性的处理方法，而对查询接口中设计的必填的可任意取值的关键词属性未作处理.文献[3 2 ]提出基于图模型的增量式Web数据库采样方法WDB- Sampler，通过查询接口从Web数据库中以增量的方式获取近似随机的样本.但是该方法是针对样本中每条数据作为顶点来建立图模型，每一轮查询后都要将查询结果扩充到图模型中用于产生下一轮查询词，这样做的代价比较高.
　　3.3网络大数据的清洗与提炼
　　由于现实世界数据的多源性、异质性以及采集数据时的一些人工错误，导致网络数据是含有噪音、冗余和缺失的.如何有效地衡量数据的质量是一个重要的研究方向.文献[33]定义了衡量数据质量的 4个指标：一致性、正确性、完整性和最小性.文献[34] 提出了数据工程中数据质量的需求分析和模型，认为存在很多候选的数据质量衡量指标，用户应根据应用的需求选择其中一部分.
　　数据的清洗建立在数据质量标准之上，为了得到高质量的数据，清洗与提炼过程必须满足几个条件：检测并除去数据中所有明显的错误和不一致；尽可能地减小人工干预和用户的编程工作量，而且要容易扩展到其它数据源；应该和数据转化相结合；要有相应的描述语言来指定数据转化和数据清洗操作，所有这些操作应该在一个统一的框架下完成.对于数据清洗，工业界已经开发了很多数据抽取、转化和装载工具（ETL t〇〇l)[35]. -些研究人员研究相似重复记录的识别和剔除（如文献[4，36])，还有一些研究包括数据的变换和集成（如文献[37-38]).
　　3.4网络大数据的融合表示
　　对网络数据的建模和表达理论方面的研究，主要集中在网络中的文本信息方面对文本信息进行表示和建模其目的是让计算机能够正确理解人类的语言，能够分析和表达出其中的语义信息.文本信息的表达经历了从浅层词语表达方式到深层语义表达方式这样一个历程，其中代表性的工作包括了向量空间表示（VSM)[29]、隐语义索引（LSI)[39]和概率话题模型（如图1所示）40]等.随着研究不断深入，话题模型被广泛地应用在各个领域，进一步有人提出了改进的话题模型[41]，以增强已有话题模型的学习能力，解决其跨领域的问题等等，从而使其能更好地应用于文本数据的表达.
　　尽管对数据表达的研究历经了很长的时间，但是对于网络大数据的建模和表达还面临着很多新的挑战.例如，对于海量文本数据的建模，我们需要模型能够对更大规模的参数空间进行有效地学习，需要能够有效地建模并解决数据的稀疏性所带来的问题，需要能够对动态演化的网络大数据进行合理的表达.此外，对于图片和多媒体数据，我们也需要进一步探索其建模与表达方式，以便能够更加有效地表达其内在的语义信息.
　　4网络大数据存储与管理体系

期刊库（http://www.zgqkk.com），是一个专门从事期刊推广、投稿辅导的网站。
　　本站提供如何投稿辅导，寻求投稿辅导合作，快速投稿辅导，投稿辅导格式指导等解决方案：省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。

　　【免责声明】本文仅代表作者本人观点，与投稿辅导_期刊发表_中国期刊库专业期刊网站无关。投稿辅导_期刊发表_中国期刊库专业期刊网站站对文中陈述、观点判断保持中立，不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考，并请自行承担全部责任。

网络大数据：现状与展望(上)(3)

投稿辅导服务咨询与期刊合作加盟

期刊推荐