企业名录垂直搜索系统的设计与实现
摘 要:网络信息资源急速膨胀,促进企业信息化的建设迅速发展。海量企业信息迅速涌入网络市场,使得通用搜索导致的数据准确性问题日渐突出,用户难以对所需的企业信息进行快速定位与检索。因此,如何更为快捷、高效、精准的获取并提供专业的企业信息已成为亟待解决的问题。文章描述的“企业垂直搜索系统”,主要利用网络爬虫技术对互联网中分散的企业信息进行结构化抽取与综合管理,为用户快速定位所需的企业信息,搭建起专业高效的企业信息检索平台。
关键词:垂直搜索;企业信息;网络爬虫
中图分类号:TP368.3 文献标识码:A 文章编号:1006-8937(2014)8-0019-03
互联网最基础的功能即提供信息。像谷歌、百度这类通用搜索引擎重点在于广度搜索,搜索到的内容涵盖范围过于广泛、繁杂,用户难以从如此海量的信息中快速获取自己所需的确切信息。尤其针对用户的专业检索需求时问题更为突出,难以满足专业人士的检索需求。因此, 应开发搜索质量更准确、相关性更复杂的搜索引擎,以追求在某一学科或某一行业领域有最佳的检索效率及效果,垂直搜索引擎的应运而生,成为搜索引擎发展史上的一座里程碑。因此,垂直搜索引擎以其搜索结果的高效性、准确性和专业性等特点逐渐得到人们的青睐。
1 研究意义
信息时代的到来与中国经济的高速发展,导致互联网中企业信息数据量日趋加大,分散的企业信息使得通用搜索引擎非结构化数据搜索导致的数据准确性问题日渐突出。因此,针对企业领域的信息查找的准确性和专业性,可以对企业搜索服务模式的细分,对海量企业信息科学地整合与管理,为用户提供精准和具有针对性的企业搜索服务的搜索引擎系统,已成为当今中国企业发展的迫切需要。
2 企业名录垂直系统核心技术
2.1 信息采集技术
2.1.1 网络爬虫技术
本文所述系统是基于垂直搜索的系统,所需要的海量企业信息分散于互联网中,因此,需要特定的程序从网络上搜寻与抓取需要的数据。在互联网上抓取网络资源的过程是依靠一个应用程序实现的,这个应用程序叫做网络爬虫(Spider),或者叫网络蜘蛛(Spider),其主要职责即从信息源处抓取所需资源信息。爬虫程序主要工作原理如下:分析所需要信息的网页url地址生成算法,生成初始的url地址;依据初始url地址依次生成有效的url地址,形成地址列表;建立网络连接,从生成的url地址列表中依次提取url地址,放入任务队列,调用爬虫程序依次通过url入口进行网页抓取任务。
爬虫程序工作原理流程图如图1所示。
基于信息数据库的准确性与完整性考虑,本系统设计的爬虫程序同时包含有以下几种功能。
①数据包抓取与分析机制
多数网站为保证网站的稳定性与安全性,采取了隐式传参的方式,例如使用验证码等。因此本系统在调用爬虫程序抓取某些所需信息时,需要通过调用数据包分析软件、查看访问网站所需传输的参数内容。本系统调用的是Wireshark网络数据包分析软件,其功能是截取网络数据包,并尽可能详细的显示网络数据包数据,可用于分析访问网站中的隐式传参。通过抓取数据包,获取需要反馈网站的数据信息,之后将隐式信息反馈网站后使系统获取访问网站权限,成功访问网页,之后通过子程序调用抓取器来进行网页的抓取。本文所述系统中所使用的抓取器为Wget,支持TCP/IP协议,并可使用HTTP代理。Wget抓取器的使用非常简单,通过设置简单的参数,将页面按照要求完整地从互联网下载到本地。因此,该机制实现的工作流程图如图2所示。
②延时抓取机制
网站基于通常设置一系列防范措施来保护网站安全,例如当某些用户在一定时间内大量访问网站时,网站防护程序可能认为这是恶意访问,从而屏蔽此用户IP。当系统调用爬虫程序抓取信息时,不可避免地在短时间内大量访问目的网站,因此需要进行一定量的延时机制来防止服务器IP被屏蔽。本系统设计的延时抓取机制基本原理为:首先设置一定的信息数量Imax作为启动延时抓取的条件,同时设置延缓时间Tmax;之后,记录抓取信息数据量In,即任务列表中已抓取的信息数量,当信息抓取量达到该条件后,即Imax=In时,标记当前最后一次抓取的url地址,爬虫程序暂时停止,Clock开始计时,同时信息抓取量In归零;最后,当Clock时长达到预定的延缓时长后,Clock时间归零,调用爬虫程序,此时进入任务队列的url地址为地址列表中顺序排在被标记的地址后的下一条url地址,之后取消被标记url地址的标记,信息抓取量In再次从零开始计数,直到达到规定条件后再次开始延时,直至任务列表中所有抓取任务都已完成。其工作流程图如图3所示。
期刊库(http://www.zgqkk.com),是一个专门从事期刊推广、投稿辅导的网站。
本站提供如何投稿辅导,寻求投稿辅导合作,快速投稿辅导,投稿辅导格式指导等解决方案:省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。
【免责声明】本文仅代表作者本人观点,与投稿辅导_期刊发表_中国期刊库专业期刊网站无关。投稿辅导_期刊发表_中国期刊库专业期刊网站站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。
投稿辅导服务咨询与期刊合作加盟
陆老师联系QQ: 913775405(普刊)
蒋老师联系QQ: 867306987(核心)
刘老师联系QQ: 271374912(核心)
联系电话:18015016272
17327192284
投稿辅导投稿邮箱:zgqkk365@126.com
期刊推荐
- 《课程教育研究》 旬刊 国家级
- 《网络空间安全》(信息安全与技术)月刊 国
- 《价值工程》旬刊 国家级 科技统计源期刊
- 《高教论坛》 月刊 省级
- 《法制与社会》旬刊 省级
- 《中国教育学刊》月刊 14版北大核心
- 《语文建设》 旬刊 14版北大核心
- 《中国绿色画报》 月刊 国家级
- 《社科纵横》季刊 社科类优秀期刊
- 《求索》月刊 14版北大核心期刊
- 《财会月刊》旬刊 14版北大核心
- 《艺术品鉴》 月刊 省级
- 《中华建设》月刊 国家级 建设类优秀期刊
- 《教学与管理》旬刊 北大核心
- 《当代经济》 旬刊 省级
- 《新课程研究》旬刊 省级 教育类优秀学术期
- 《文教资料》 旬刊 省级
- 《学术界》 月刊 双核心
- 《吉林教育》旬刊 省级 教育类学术期刊
- 《中国农业资源与区划》 月刊 14版北大核心
- 《继续教育研究》月刊 北大核心期刊
- 《财经界(学术版)》半月刊 国家级
- 《电影评介》半月刊 14版北大核心
- 《公路交通科技》 月刊 北大核心
- 《新闻传播》月刊 省级 新闻类优秀期刊