网络大数据:现状与展望 (下)
4.3数据世系管理
数据世系(Data Provenance)[46]包含了不同数 据源间的数据演化过程和相同数据源内部数据的演 化过程.数据世系一般有两类基本方法,非注解的方 法和基于注解的方法.前者采用模式映射方式使用 数据处理函数和其相对应的反向函数,但在更复杂 的例子中可能并不存在集合之间的可逆函数,必须 使用注解描述世系.事实上基于注解的方法的应用 范围要远远高于非注解的方法.
数据世系可针对多种数据类型,包括关系型数 据、XML数据和不确定数据等.自20世纪90年代 以来,数据世系的研究取得很大的进展[47-48],并且应 用到了多个领域之中.面对网络大数据,数据世系管 理的研究工作需关注以下几个方面[49]: (1)传统的 数据管理下的数据世系的管理还有很多的工作亟待 考虑,其中考察数据的起源和演化过程将是_个大 的挑战;(2)在网络环境下不确定性数据广泛存在,并且具有多种多样的表现形式.数据的演化过程同 时也伴随着数据不确定性的演化,可以利用数据的 世系追踪数据不确定性的来源和演化过程;(3)如 何解决异构世系标准的融合问题.大数据应用将涵 盖更多的原本可能相互隔离的数据集合,如何将适 用不同标准的数据世系信息整合在_起是一个关键 问题.
5网络大数据挖掘和社会计算
利用计算技术对网络大数据进行挖掘分析,发 现蕴含的知识,研究社会运行的规律与发展趋势,是 挖掘网络大数据的深层价值和实现社会行为可计算 的主要途径.随着社会媒体的涌现,持续增长的用户 数据在规模和复杂性上都有着指数式的攀升,导致 传统的挖掘和计算方法在性能和效用上遇到了严重 的瓶颈.基于内容信息的数据挖掘和基于结构信息 的社会计算是目前网络大数据挖掘和社会计算领域 的研究热点.
5.1基于内容信息的数据挖掘
语言是社会媒体最重要的表现形式,文本是社 会媒体中用户表达信息的最重要的方式.基于内容 信息的数据挖掘包括网络搜索技术与实体关联分析 等主要研究内容.
社会媒体的出现为互联网信息搜索提出了新的 挑战,研究的热点从传统的海量数据抓取、索引结构 优化和用户查询分析等转移到了排序学习算法,专注 于提高检索质量.排序学习模型将文档表示为特征向量,以损失函数为优化目标,寻找在检索领域中常用 的评价准则下最好的排序函数,常见的排序学习算法可以分为逐点(Pointwise,如McRank[50])、逐对 (Pairwise,如 RankBoost[51]、RankNet[52])和逐列 (Listwise,如 ListNet[53]、AdaRank[54]、SVM-MAP[55]) 3类方法.现有模型在处理用户需求相关性、多样性 和重要性等不同目标排序方面仍有不足.此外,社会 媒体中需要关注数据的短文本特征、对简短关键 词表达的深入理解和分析,掌握用户真实的查询.
命名实体是现实世界中的具体或者抽象但具有 特定意义的实体,从海量信息中获取其蕴含的内在 知识,需要研究对命名实体、实体关系的挖掘.社会 媒体生成的海量网络数据中,实体类型越来越多,力 度越来越细,关系越来越繁杂.对于实体关系的挖 掘,研究人员提出了基于规则[57]和基于机器学习[58] 的方法.2007年,Getoor等提出统计关系学习是里 程碑式的技术[5 9 ],突破了传统统计模型对于研究对 象同类型、不相关的两个假设,可以更全面地表达领 域知识.目前,实体和关系的挖掘仍是网络数据挖掘 领域关注的研究问题,存在很多亟待解决的问题,例 如对新涌现出的实体的抽取与识别,挖掘结果的可 用性和可理解性,大规模高效知识库、本体库语义网 络的构建等.
5.2基于结构信息的社会计算
社会网络是以社会媒体中的用户为节点,用户 间的关系为连边而构建的网络.它既是用户间社会 关系的反映,也是用户之间进行信息交互的载体.具有关系的异质性、结构的多尺度性以及网络的动态 演化性3方面特性.社会网络中个体因血缘关系或 兴趣爱好等因素而形成了连接紧密的圈子,这种内 部关系紧密而对外关系相对稀疏的结构被称为社 区.社区结构是社会网络所普遍具有的结构特征,社 区结构的存在对于网络的高效搜索、网络演化、信息 扩散等具有重要意义.针对社区结构的研究可分为 社区发现、社区结构演化等方面[60].
社区发现[61]旨在识别出网络固有的社区结构, 按照节点间的连边关系把节点划分成若干节点组, 使得节点内部的连边相对稠密,不同节点之间的连 边相对稀疏.Girvan和Newman[624^出分裂式层次 聚类方法,是一种自顶向下的社区分割过程;文 献[3]提出模块度概念,采用一种被假定没有社区 结构的网络作为参照网络,对于_个给定的网络划 分,通过对比原有网络和参照网络中处于该划分的 各个分量内部边的比例,给出一种度量网络划分质 量的方法;对于重叠社区结构的研究,Palla等人[64] 提出了一种基于完全子图渗流的社区发现方法,已 应用到生物、信息、社会等网络中;进一步,文献[65] 定义新的网络模块度,采用聚合式层次聚类的方式, 提出了能够同时揭示网络层次重叠社区结构(如 图4所示)的社区发现方法.
期刊库(http://www.zgqkk.com),是一个专门从事期刊推广、投稿辅导的网站。
本站提供如何投稿辅导,寻求投稿辅导合作,快速投稿辅导,投稿辅导格式指导等解决方案:省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。
【免责声明】本文仅代表作者本人观点,与投稿辅导_期刊发表_中国期刊库专业期刊网站无关。投稿辅导_期刊发表_中国期刊库专业期刊网站站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。
投稿辅导服务咨询与期刊合作加盟
陆老师联系QQ:
蒋老师联系QQ:
刘老师联系QQ:
联系电话:18015016272
17327192284
投稿辅导投稿邮箱:zgqkk365@126.com
期刊推荐
- 《校园英语》旬刊 省级 教育类学术期刊
- 《吉林教育》旬刊 省级 教育类学术期刊
- 《文教资料》 旬刊 省级
- 《科技风》半月刊 省级 科技类优秀期刊
- 《价值工程》旬刊 国家级 科技统计源期刊
- 《中国实验方剂学杂志》 半月刊 北大核心
- 《电影评介》半月刊 14版北大核心
- 《社科纵横》季刊 社科类优秀期刊
- 《求索》月刊 14版北大核心期刊
- 《中华建设》月刊 国家级 建设类优秀期刊
- 《继续教育研究》月刊 北大核心期刊
- 《网络空间安全》(信息安全与技术)月刊 国
- 《新闻传播》月刊 省级 新闻类优秀期刊
- 《财会月刊》旬刊 14版北大核心
- 《体育文化导刊》月刊 体育类双核心期刊
- 《机械研究与应用》双月刊 省级 机械应用类
- 《公路交通科技》 月刊 北大核心
- 《教学与管理》旬刊 北大核心
- 《新课程研究》旬刊 省级 教育类优秀学术期
- 《中国医药指南》 旬刊 国家级
- 《高教论坛》 月刊 省级
- 《课程教育研究》 旬刊 国家级
- 《语文建设》 旬刊 14版北大核心
- 《教育发展研究》 半月刊 双核心
- 《学术界》 月刊 双核心


