网络大数据:现状与展望(上)(3)
总体而言,尽管与网络大数据研究密切相关的 数据库、数据挖掘、机器学习和知识工程等领域近些 年来都有很大的进展,甚至在许多不同的领域得到 了深入的应用,但由于网络大数据规模海量、关系复 杂等根本特性,使得相关领域的研究成果难以被直 接借鉴于网络大数据的研究.因此,网络大数据的研 究需要_套全新的理论和方法来进行方向性的指 导.但到目前为止,甚至连大数据的精确定义还缺乏 _个统一的标准.网络大数据科学与技术这门学科 的内涵和外延还缺乏严格的限定和详实的论证;在 大数据的环境下,传统“假设、模型、检验”的科学方 法受到质疑,从“数据”到“数据”的第四范式还没有 建立,需要一个完备的新的理论体系来指导该学科 的发展和研究.
3网络空间感知与数据表示
网络数据具有跨媒体关联、强时效演变、多主体 互动等特点,使得我们对网络大数据的态势感知、质 量评估、融合表示等均面临新的问题.
3.1网络大数据的感知与获取
按照网络空间中数据的蕴藏深度,整个网络空 间可以划分为Surface Web和Deep Web[26],或称 作 Hidden Web[27].Surface Web 是指 Web 中通过 超链接可被传统搜索引擎爬取到的静态页面,而 Deep Web则由Web中可在线访问的数据库组成. Deep Web的数据隐藏在Web数据库提供的查询接 口后面,只有通过向查询接口提交查询才能获得.与 Surface Web相比,Deep Web所包含的信息更丰 富.同时,Deep Web具有规模大、实时动态变化、异 构性、分布性以及访问方式特殊等特点.为了充分利 用Deep Web中的数据资源,需要充分获取Deep Web中高质量的数据并予以集成,整个集成过程可以分为数据获取、数据抽取和数据整合3个环节. 3.2网络大数据的质量评估与采样对网络空间中多源数据进行质量评估,一方面 需要建立数据模型或提出适当的采样方法;另一方 面,需要提出对采样数据的评价与检验方法.网络数 据采样是将数据从Web数据库提取出来的过程.传 统的数据库采样是随机从数据库中选取数据记录以 获得数据库的统计信息的过程,典型方法可参考文 献[28-30].但是要获取Web数据库中的数据只能 通过向查询接口提交查询,不能自由地从Web数据 库获取记录,故而传统方法不能实现对Web数据库的采样.
针对Web数据库采样,HIDDEN-DB-SAM- PLER[31]是第一项工作,它给出了对范围属性和分 类属性的处理方法,而对查询接口中设计的必填的 可任意取值的关键词属性未作处理.文献[3 2 ]提出 基于图模型的增量式Web数据库采样方法WDB- Sampler,通过查询接口从Web数据库中以增量的 方式获取近似随机的样本.但是该方法是针对样本 中每条数据作为顶点来建立图模型,每一轮查询后 都要将查询结果扩充到图模型中用于产生下一轮查 询词,这样做的代价比较高.
3.3网络大数据的清洗与提炼
由于现实世界数据的多源性、异质性以及采集 数据时的一些人工错误,导致网络数据是含有噪音、 冗余和缺失的.如何有效地衡量数据的质量是一个 重要的研究方向.文献[33]定义了衡量数据质量的 4个指标:一致性、正确性、完整性和最小性.文献[34] 提出了数据工程中数据质量的需求分析和模型,认 为存在很多候选的数据质量衡量指标,用户应根据 应用的需求选择其中一部分.
数据的清洗建立在数据质量标准之上,为了得 到高质量的数据,清洗与提炼过程必须满足几个条 件:检测并除去数据中所有明显的错误和不一致;尽 可能地减小人工干预和用户的编程工作量,而且要 容易扩展到其它数据源;应该和数据转化相结合;要 有相应的描述语言来指定数据转化和数据清洗操 作,所有这些操作应该在一个统一的框架下完成.对 于数据清洗,工业界已经开发了很多数据抽取、转化 和装载工具(ETL t〇〇l)[35]. -些研究人员研究相似 重复记录的识别和剔除(如文献[4,36]),还有一些 研究包括数据的变换和集成(如文献[37-38]).
3.4网络大数据的融合表示
对网络数据的建模和表达理论方面的研究,主 要集中在网络中的 文本信息方面 对文本信息进行 表示和建模其目的是让计算机能够正确理解人类的 语言,能够分析和表达出其中的语义信息.文本信息 的表达经历了从浅层词语表达方式到深层语义表达 方式这样一个历程,其中代表性的工作包括了向量 空间表示(VSM)[29]、隐语义索引(LSI)[39]和概率话 题模型(如图1所示)40]等.随着研究不断深入,话 题模型被广泛地应用在各个领域,进一步有人提出 了改进的话题模型[41],以增强已有话题模型的学习 能力,解决其跨领域的问题等等,从而使其能更好地 应用于文本数据的表达.
尽管对数据表达的研究历经了很长的时间,但 是对于网络大数据的建模和表达还面临着很多新的 挑战.例如,对于海量文本数据的建模,我们需要模 型能够对更大规模的参数空间进行有效地学习,需 要能够有效地建模并解决数据的稀疏性所带来的问 题,需要能够对动态演化的网络大数据进行合理的 表达.此外,对于图片和多媒体数据,我们也需要进 一步探索其建模与表达方式,以便能够更加有效地 表达其内在的语义信息.
4网络大数据存储与管理体系
期刊库(http://www.zgqkk.com),是一个专门从事期刊推广、投稿辅导的网站。
本站提供如何投稿辅导,寻求投稿辅导合作,快速投稿辅导,投稿辅导格式指导等解决方案:省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。
【免责声明】本文仅代表作者本人观点,与投稿辅导_期刊发表_中国期刊库专业期刊网站无关。投稿辅导_期刊发表_中国期刊库专业期刊网站站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。
投稿辅导服务咨询与期刊合作加盟
陆老师联系QQ:
蒋老师联系QQ:
刘老师联系QQ:
联系电话:18015016272
17327192284
投稿辅导投稿邮箱:zgqkk365@126.com
期刊推荐
- 《校园英语》旬刊 省级 教育类学术期刊
- 《吉林教育》旬刊 省级 教育类学术期刊
- 《文教资料》 旬刊 省级
- 《科技风》半月刊 省级 科技类优秀期刊
- 《价值工程》旬刊 国家级 科技统计源期刊
- 《中国实验方剂学杂志》 半月刊 北大核心
- 《电影评介》半月刊 14版北大核心
- 《社科纵横》季刊 社科类优秀期刊
- 《求索》月刊 14版北大核心期刊
- 《中华建设》月刊 国家级 建设类优秀期刊
- 《继续教育研究》月刊 北大核心期刊
- 《网络空间安全》(信息安全与技术)月刊 国
- 《新闻传播》月刊 省级 新闻类优秀期刊
- 《财会月刊》旬刊 14版北大核心
- 《体育文化导刊》月刊 体育类双核心期刊
- 《机械研究与应用》双月刊 省级 机械应用类
- 《公路交通科技》 月刊 北大核心
- 《教学与管理》旬刊 北大核心
- 《新课程研究》旬刊 省级 教育类优秀学术期
- 《中国医药指南》 旬刊 国家级
- 《高教论坛》 月刊 省级
- 《课程教育研究》 旬刊 国家级
- 《语文建设》 旬刊 14版北大核心
- 《教育发展研究》 半月刊 双核心
- 《学术界》 月刊 双核心


