在线客服系统

期刊库

教育   经济   科技   财会   管理   
医学   法学   文史   工业   建筑   
农学   水利   计算机   更多>>
 首 页    论文大全   论文精品    学术答疑    论文检测    出书咨询    服务流程    诚信通道    关于我们 

网络大数据:现状与展望(上)(3)

人气指数: 发布时间:2015-12-21 09:00  来源:http://www.zgqkk.com  作者: 王元卓 靳小龙 程学旗
分享到:

 


  总体而言,尽管与网络大数据研究密切相关的 数据库、数据挖掘、机器学习和知识工程等领域近些 年来都有很大的进展,甚至在许多不同的领域得到 了深入的应用,但由于网络大数据规模海量、关系复 杂等根本特性,使得相关领域的研究成果难以被直 接借鉴于网络大数据的研究.因此,网络大数据的研 究需要_套全新的理论和方法来进行方向性的指 导.但到目前为止,甚至连大数据的精确定义还缺乏 _个统一的标准.网络大数据科学与技术这门学科 的内涵和外延还缺乏严格的限定和详实的论证;在 大数据的环境下,传统“假设、模型、检验”的科学方 法受到质疑,从“数据”到“数据”的第四范式还没有 建立,需要一个完备的新的理论体系来指导该学科 的发展和研究.
  3网络空间感知与数据表示
  网络数据具有跨媒体关联、强时效演变、多主体 互动等特点,使得我们对网络大数据的态势感知、质 量评估、融合表示等均面临新的问题.
  3.1网络大数据的感知与获取
  按照网络空间中数据的蕴藏深度,整个网络空 间可以划分为Surface Web和Deep Web[26],或称 作 Hidden Web[27].Surface Web 是指 Web 中通过 超链接可被传统搜索引擎爬取到的静态页面,而 Deep Web则由Web中可在线访问的数据库组成. Deep Web的数据隐藏在Web数据库提供的查询接 口后面,只有通过向查询接口提交查询才能获得.与 Surface Web相比,Deep Web所包含的信息更丰 富.同时,Deep Web具有规模大、实时动态变化、异 构性、分布性以及访问方式特殊等特点.为了充分利 用Deep Web中的数据资源,需要充分获取Deep Web中高质量的数据并予以集成,整个集成过程可以分为数据获取、数据抽取和数据整合3个环节. 3.2网络大数据的质量评估与采样对网络空间中多源数据进行质量评估,一方面 需要建立数据模型或提出适当的采样方法;另一方 面,需要提出对采样数据的评价与检验方法.网络数 据采样是将数据从Web数据库提取出来的过程.传 统的数据库采样是随机从数据库中选取数据记录以 获得数据库的统计信息的过程,典型方法可参考文 献[28-30].但是要获取Web数据库中的数据只能 通过向查询接口提交查询,不能自由地从Web数据 库获取记录,故而传统方法不能实现对Web数据库的采样.
  针对Web数据库采样,HIDDEN-DB-SAM- PLER[31]是第一项工作,它给出了对范围属性和分 类属性的处理方法,而对查询接口中设计的必填的 可任意取值的关键词属性未作处理.文献[3 2 ]提出 基于图模型的增量式Web数据库采样方法WDB- Sampler,通过查询接口从Web数据库中以增量的 方式获取近似随机的样本.但是该方法是针对样本 中每条数据作为顶点来建立图模型,每一轮查询后 都要将查询结果扩充到图模型中用于产生下一轮查 询词,这样做的代价比较高.
  3.3网络大数据的清洗与提炼
  由于现实世界数据的多源性、异质性以及采集 数据时的一些人工错误,导致网络数据是含有噪音、 冗余和缺失的.如何有效地衡量数据的质量是一个 重要的研究方向.文献[33]定义了衡量数据质量的 4个指标:一致性、正确性、完整性和最小性.文献[34] 提出了数据工程中数据质量的需求分析和模型,认 为存在很多候选的数据质量衡量指标,用户应根据 应用的需求选择其中一部分.
  数据的清洗建立在数据质量标准之上,为了得 到高质量的数据,清洗与提炼过程必须满足几个条 件:检测并除去数据中所有明显的错误和不一致;尽 可能地减小人工干预和用户的编程工作量,而且要 容易扩展到其它数据源;应该和数据转化相结合;要 有相应的描述语言来指定数据转化和数据清洗操 作,所有这些操作应该在一个统一的框架下完成.对 于数据清洗,工业界已经开发了很多数据抽取、转化 和装载工具(ETL t〇〇l)[35]. -些研究人员研究相似 重复记录的识别和剔除(如文献[4,36]),还有一些 研究包括数据的变换和集成(如文献[37-38]).
  3.4网络大数据的融合表示
  对网络数据的建模和表达理论方面的研究,主 要集中在网络中的 文本信息方面 对文本信息进行 表示和建模其目的是让计算机能够正确理解人类的 语言,能够分析和表达出其中的语义信息.文本信息 的表达经历了从浅层词语表达方式到深层语义表达 方式这样一个历程,其中代表性的工作包括了向量 空间表示(VSM)[29]、隐语义索引(LSI)[39]和概率话 题模型(如图1所示)40]等.随着研究不断深入,话 题模型被广泛地应用在各个领域,进一步有人提出 了改进的话题模型[41],以增强已有话题模型的学习 能力,解决其跨领域的问题等等,从而使其能更好地 应用于文本数据的表达.
  尽管对数据表达的研究历经了很长的时间,但 是对于网络大数据的建模和表达还面临着很多新的 挑战.例如,对于海量文本数据的建模,我们需要模 型能够对更大规模的参数空间进行有效地学习,需 要能够有效地建模并解决数据的稀疏性所带来的问 题,需要能够对动态演化的网络大数据进行合理的 表达.此外,对于图片和多媒体数据,我们也需要进 一步探索其建模与表达方式,以便能够更加有效地 表达其内在的语义信息.
  4网络大数据存储与管理体系

期刊库(http://www.zgqkk.com),是一个专门从事期刊推广、投稿辅导的网站。
  本站提供如何投稿辅导,寻求投稿辅导合作,快速投稿辅导,投稿辅导格式指导等解决方案:省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。


  【免责声明】本文仅代表作者本人观点,与投稿辅导_期刊发表_中国期刊库专业期刊网站无关。投稿辅导_期刊发表_中国期刊库专业期刊网站站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

 
QQ在线咨询
投稿辅导热线:
180-1501-6272
微信号咨询:
fabiaoba-com
咨询电话:18015016272 投稿邮箱:zgqkk365#126.com(#换成@)
本站郑重声明:文章只代表作者观点, 并不意味着本站认同。所载文章、数据仅供参考,使用前请核实,风险自负。
部分作品系转载,版权归原作者或相应的机构   若某篇作品侵犯您的权利,请来信告知.版权:周口博闻教育咨询有限公司 
Copyright © 2005-2023 . 期刊库 版权所有