在线客服系统

期刊库

教育   经济   科技   财会   管理   
医学   法学   文史   工业   建筑   
农学   水利   计算机   更多>>
 首 页    论文大全   论文精品    学术答疑    论文检测    出书咨询    服务流程    诚信通道    关于我们 

面向网络舆情的检索系统设计研究(2)

人气指数: 发布时间:2013-09-10 09:45  来源:http://www.zgqkk.com  作者: 安靖
分享到:

 

  1.2 网页信息抽取及预处理技术

  "信息抽取的作用是从自然语言中抽取出预定好的实体、关系、事件的集合,并用结构化的表示来记录这些信息。"[1]与单纯的文本不一样的是,一个完整的网页通常包含多个内容部分:网页顶部的导航栏、网页正文标题、网页正文信息、相关的链接、广告、版权信息等等。在这些组成部分中,标题与正文通常是用户最关心的部分,多数情况下能够满足用户需要的信息,称为主体信息。其它部分的内容基本与网页内容无关,这些内容是用户可以忽略的次要信息。目前,网页文本信息抽取主要有基于模板的抽取方法和基于网页结构信息的方法。

  2 舆情检索系统架构设计

  2.1 网络舆情监测框架总体模型

  本文所描述的网络舆情监测系统框架总体上分为舆情信息采集层、舆情数据处理层、舆情信息查询与展示3层,它们分别从舆情信息获取、舆情数据处理和舆情数据展示3个层面来描述舆情系统的工作流程,如图1所示。

  2.2 舆情系统具体流程

  由于网络舆情信息分布分散,论坛、博客、微博以及新闻等网站都是舆情信息的主要爆发点,而且各种类型的网站结构各异,传统以单一爬虫采集的方法表现出采集垃圾信息过多、可配置性较差等缺点,因此针对不同类型的站点设计不同的爬虫方法是一种相对明智的做法。

  舆情信息采集层根据用户的监测目标以尽可能小的代价从互联网上尽可能全地下载所有舆情信息;舆情数据处理层将所采集到的舆情信息进行预处理、过滤和分析;舆情信息查询与展示层根据用户提供的启发式信息给出查询结果,根据用户提供的启发式信息自动实时地监测本地信息库,并在发现重要舆情信息时为用户示警。

  3 舆情检索系统模块实现

  3.1 基于层次模型的论坛爬虫

  由于论坛网站页面结构复杂,传统的采用广度优先的爬行策略和基于网页结构信息的页面解析方法在论坛网站的抓取方面效果较差,使得论坛抓取成为网络舆情信息抓取问题的重点和难点。本文将详细介绍一种基于层次模型的论坛爬虫(Level Model of Forum Crawler,简称LMFC)。

  为了保存爬虫爬行过程中的URL关系,已有部分研究人员提出了一些解决方法。文献[2]提出了页面翻转侦测算法,通过机器学习的方法发现两个页面间的连通性,从而确定两个页面是否属于同一个话题;另有一种更为简便的方法是,总结所有指向下一页的链接的锚文本的规律,如"下一页"、"Next Page"等,通过启发式信息指导爬虫处理。这些方法在通用性方面具有很大优势,但在精确性方面却不能满足舆情监测的需要。

  本文采用WebHarvest提取论坛页面信息,对于WebHarvest来说要精确提取一个"下一页"链接并非难事。因此,在抽取一个论坛页面的舆情信息的同时,也会根据提取模板中定义的规则提取该页面的下一页链接。如果提取到的链接不为空,则继续下载该页面的下一页链接所对应的页面,直到同一个话题下的所有页面都下载完毕。

  3.2 舆情热点发现模块

  (1)文本过滤。

  本文采用Mahout提供的SVM算法,实现对监测过程中获取到的不相关文本进行过滤处理。由于不同的监测项目,判断监测标准不一致,因此无法形成一个用于过滤所有监测项目中舆情信息的统一模型。因此,系统在进行文本过滤时从已经抓取到的舆情信息中选择训练的正例和反例,根据小样本训练出分类模型,再使用该项目中其它舆情信息验证模型的有效性,保证训练模型的质量,并且只过滤本监测项目中的舆情信息,保证舆情分类的效果。


期刊库(http://www.zgqkk.com),是一个专门从事期刊推广、投稿辅导的网站。
  本站提供如何投稿辅导,寻求投稿辅导合作,快速投稿辅导,投稿辅导格式指导等解决方案:省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。


  【免责声明】本文仅代表作者本人观点,与投稿辅导_期刊发表_中国期刊库专业期刊网站无关。投稿辅导_期刊发表_中国期刊库专业期刊网站站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

 
QQ在线咨询
投稿辅导热线:
180-1501-6272
微信号咨询:
fabiaoba-com
咨询电话:18015016272 投稿邮箱:zgqkk365#126.com(#换成@)
本站郑重声明:文章只代表作者观点, 并不意味着本站认同。所载文章、数据仅供参考,使用前请核实,风险自负。
部分作品系转载,版权归原作者或相应的机构   若某篇作品侵犯您的权利,请来信告知.版权:周口博闻教育咨询有限公司 
Copyright © 2005-2023 . 期刊库 版权所有