期刊库

教育   经济   科技   财会   管理   
医学   法学   文史   工业   建筑   
农学   水利   计算机   更多>>
 首 页    论文大全   论文精品    学术答疑    论文检测    出书咨询    服务流程    诚信通道    关于我们 

基于移动互联网的质检信息采集与聚类分析技术浅析(2)

人气指数: 发布时间:2015-02-05 10:42  来源:http://www.zgqkk.com  作者: 于新雨等
分享到:

 


  3.1 爬虫技术

  利用现有的网络爬虫(crawl)技术来完成网络质检信息的获取是个不错的选择,网络爬虫技术大部分是基于表单填写,按表单填写方法可分为基于领域知识的表单填写和基于网页结构分析的表单填写的爬虫技术。

  (1)广度优先搜索。在互联网中,网页之间的关系错综复杂,可以借助图的结构来表示出它们之间的关系。遍历图的深度优先遍历或者广度优先遍历方法同样也可以适用于对网页进行遍历,规定抓取网页的顺序。实质上讲,应用于树中的遍历算法与广度优先遍历算法相同,要先对处于同一层次的节点,进行访问,才可再往下访问。广度优先遍历:遍历是从某个顶点V出发,在对顶点V访问后,再对还没有被访问过的V的邻接点W进行访问,然后分别从邻接点W出发来访问它们的邻接点,遵循“先被访问顶点的邻接点”早于“后被访问顶点的邻接点”被访问的原则,直到访问到图中的所有顶点的邻接点。

  在广度优先遍历算法中,越离根节点近的越优先被访问,同样,若要使某些访问量高的网页被优先抓取,就应该越靠近种子站点。爬虫从种子站点开始抓取工作,依据宽度优先遍历的算法,距离种子站点越近的网页,则可以优先于在底层,距离种子站点远的网页被抓取。广度优先遍历具算法流程图,如图1所示。

  将顶点V放入队列中,若队列为非空的时候就继续执行流程,否则程序结束。出队列时将取出队头的顶点V,并访问顶点V且标记为己访问。找出V的第一个邻接顶点W。如果顶点V的邻接顶点W没有被访问过的,则将顶点W放入队列中。继续查找,检查顶点V是否还存在另一个新的邻接顶点W,直至处理完V的所有未被访问过的邻接点。

  (2)深度优先搜索。该方法采取的搜索策略具体为:深度优先搜索过程中,保持对图的搜索尽可能的“深”,针对最新顶点,若其以顶点作为起点,同时探测过程也是不存在边的情况下,进一步的探索则可沿此边完成。探索完结点V全部边后,搜索则会回到始结点。该过程的终点为完成源结点能够到的全部结点。若仍然有未被发现结点的情况,那么要以源结点为起点对上述过程重复进行,终点为节点全部被发现。对于多数的情况,深度优先使爬虫会出现陷入trapped的问题,因此,其不具有完备性以及最优化。

  3.2 文本分类

  网络上和质检领域相关的Web文本数据量越来越大,如何对这些包含不同信息的文本进行准确高效的分析整理,提升其潜在价值,成为一个待解决的重要问题。文本自动分类技术是解决该类问题的关键技术之一。文本分类的根本任务是根据Web文本内容识别出Web文本所属类别,大致包括以下几个步骤。

  第一,获取文本数据集。在实际的文本分类系统中会建立标准的文本语料库,并且标注出样本集中每篇文本所属的类别。

  第二,将文本表示成能够被计算机或者分类系统识别并且能顺利进行分类的形式,这也是分类中最重要的一步,比如可以用数字或者向量来呈现出文本内容的特征。而此步中最为重要的是消减特征和计算权重,它主要解决的是怎样又从获取的这些原始信息中提取出能代表其特征的测量值。

  第三,构建出合适的分类器或分类算法。按照己经构建的分类器将训练集文本映射到定义好的类别集合中,分类算法有很多,但是使用频率较高的几个有:Rocchio算法、支持向量机算法、k最近邻(k-NN)算法、朴素贝叶斯算法、最大嫡模型等。

  第四,评估分类器的相关性能。针对不同的分类问题,应该选择不同的参数作为评估标准,以获得需要的结果,目前大多采用查准率、查全率、宏平均以及微平均等作为评估分类器性能的指标。

  依照以上四步,可以将一般文本分类的大致流程表示如图2所示。图中实线表示分类器的训练过程,而虚线则表示测试过程。

  3.3 Web文本预处理

  (1)页面去噪。按照各质检信息源表现出的网页呈现形式采集信息,网页上包含大量的广告、图片、链接,这些不是舆情关注的价值信息,还给系统的高效运行、检索增加负担。同时数据呈现按照各自信息源排列规则出现,利用HTML解析器语法和正则表达式去识别标题、来源、作者、发布时间、正文等,对信息预处理形成统一格式供后续的决策分析。

  (2)分词。中文分词研究已较为成熟,根据是否使用切分词典,可分为有词典切分和无词典切分。根据切分的具体方法,可分为基于规则的方法和基于统计的方法。本模型采用中国科学院汁算技术研究所研制的汉语词法分析系统ICTCLAS,ICTCLAS采用了层叠隐马尔可夫模型,主要功能包括中文分词、词性标注、命名实体识别、新词识别;同时支持用户词典,分词效果良好。

  (3)过滤。利用停用词表和过滤规则对分词结果进行过滤,停用词表中包括助词、介词、连词等虚词以及词语长度为1的无实际含义的词。设计相应的规则进行过滤。

  4 移动互联网质检检测现实情境与投诉举报信息的智能分析

  质检检测现实情境与投诉举报信息智能分析模型的主要功能是实现供热锅炉和压力管线等特种设备的碎片信息的自动分类和推送。

期刊库(http://www.zgqkk.com),是一个专门从事期刊推广、投稿辅导的网站。
  本站提供如何投稿辅导,寻求投稿辅导合作,快速投稿辅导,投稿辅导格式指导等解决方案:省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。


  【免责声明】本文仅代表作者本人观点,与投稿辅导_期刊发表_中国期刊库专业期刊网站无关。投稿辅导_期刊发表_中国期刊库专业期刊网站站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

 
QQ在线咨询
投稿辅导热线:
180-1501-6272
微信号咨询:
fabiaoba-com
咨询电话:18015016272 投稿邮箱:zgqkk365#126.com(#换成@)
本站郑重声明:文章只代表作者观点, 并不意味着本站认同。所载文章、数据仅供参考,使用前请核实,风险自负。
部分作品系转载,版权归原作者或相应的机构   若某篇作品侵犯您的权利,请来信告知.版权:周口博闻教育咨询有限公司 
Copyright © 2005-2023 . 期刊库 版权所有