企业名录垂直搜索系统的设计与实现(2)
2.1.2 信息抽取技术
信息抽取是指从一段文本中抽取指定的一类信息, 并将其转化为结构化的数据存入一个数据库中供用户查询使用的过程。因此如何将采集到的信息进行结构化的抽取是垂直搜索关键技术之一。一个html文本中通常包含有多类信息,例如企业名称、企业类型、注册号等,如何将这些信息结构化抽取、归类与整理也是信息抽取待解决问题之一。本系统采用的方法非常简单:利用已预定义的字符匹配算法——正则表达式(Regular Expression)来扫描html文本,进行信息匹配,提取正确匹配的信息。Html网页一般某类特定信息的句子带有特殊的句法。因此依照正则表达式的的基本字符匹配规则,可以确定某类特定信息提取的正则表达式,从而实现自动分类,提取对应信息。
2.2 检索技术
2.2.1 中文分词技术
中文分词技术是基于中文信息的搜索引擎的关键技术之一,是处理中文信息的基础,其准确性影响着查询结果的准确性。中文信息以字为单位,单个汉字按照一定顺序排列组合后合成词句进行有意义的表达。因此,如何将用户进行搜索的模糊信息分词处理后获得最接近用户原意的结果,是分词技术的难点。本系统实现分词技术采用的是Friso分词处理器。Friso是使用c语言开发的一个开源的中文分词器,完全基于模块化设计和实现,可以很方便的植入到其他程序中,如:MySQL,PHP等。Friso分词器源码可直接植入到任何平台编译使用,支持UTF-8编码、自定义的词汇数据库以及大小写等,可对中文与英文的混合词汇进行分词处理等,在系统中使用方便快捷。
2.2.2 索引技术
索引技术是垂直搜索技术中关键的一环。索引的建立,可以有效提高结构化信息的入库效率与信息查询的精准性。目前常用的基于中文分词索引建立方法有单字分词,双字分词(统计分词)和词典分词。单字分词即以单个汉字为单位建立索引项,此法索引建立简单,但查询时操作繁复,效率不高;双字分词法以两个汉字作为一个词来建立索引项,索引建立复杂且会存在大量冗余,查询效率相对单字分词法而言较高;词典分词法则是需要在分词前建立一个详细全面的词库,在切分中文信息时与词库中的数据进行匹配,遇到匹配的词汇时进行信息切分。经过综合对比,本系统选择词典分词建立分词索引,因此需要建立例如“合资”、“股份制”等与企业、行业、商业相关的专业词语的词汇数据库,选择基于词库分词法的中文分词技术以提高查询结果的准确性与相关性。
3 企业名录垂直搜索系统的设计
3.1 数据库模块
3.1.1 企业信息相关词词库
为提高本系统搜索结果的精准性,本系统建立的自定义的企业信息词库。在构建企业相关特征词库时,首先需要确定描述企业的术语有哪些,例如描述企业类型的术语按照组织形式的不同被描述为国有、私营、合资、独资等,按照企业所属行业又可以分为交通运输、工业、农业等。因此,在建立词库时,首先需要确定初始的企业相关词,按照字符长度进行排列;之后,确定这些字符的汉语拼音。在建立数据表时,建立的数据项包括字的ID、汉语拼音、词语长度、词语汉字等数据项,当Friso分词器接受到用户的搜索时,可以依照所输入的汉语词汇或者英文输入法下的汉语拼音进行相对应汉语分词提示。
3.1.2 企业信息数据库
本文研究的企业名录垂直搜索系统,为实现准确的企业信息搜索,建立了详细的企业信息数据库,包含了企业名称、注册号、法人姓名、法人信息、企业地址、电子邮箱、联系电话等详细信息。并且为实现精准的企业垂直搜索,本系统对企业类型、注册资本、规模大小、所在地区、营业状况等分别进行较为详细的分类并建立相关索引,例如根据注册资本范围可以建立50万以下、50~100万、100~300万、300~500万和500万以上等几个数据的索引表,当用户选择相应的注册资本范围进行更快捷的查询,提高结果的精准性与搜索效率。
3.2 信息采集与处理模块
系统设计的爬虫程序由于需要调用Wireshark数据分析包与Wget抓取器,因此该模块又分为四个模块:网页抓取模块、数据库存储模块、通信模块与正则表达式处理模块,如图4所示。网页抓取模块即将包含有所需信息的网页从网络下载至本地;数据库存储模块即将切割后的结构化信息存储至企业信息数据库中;通信模块则负责父进程与子进程之间的通信,即爬虫程序中调用Wireshark子进程与调用Wget抓取网页子进程以及延时抓取中延时进程之间的通信,使得各尽程各司其职,互相协作,完成指令;正则表达式处理模块则是利用标准的正则表达式规则对抓取的网页进行信息的匹配,进行结构化信息的抽取。
3.3 垂直搜索与查询模块
系统前台查询不仅使用了中文分词技术,调用Friso分词器可使用户在查询时可对相应的查询条件进行提示,同时支持联合检索。在前台搜索中,系统不仅设计了基于用户输入关键字词的搜索,还对注册资本范围、企业类型、企业状态、行政区划等条件进行了选择设置,用户可以直接选择所查询企业的注册资本范围、所属行业等,后台程序可将前台界面反馈后的多个查询条件进行联合查询,确保反馈给用户最需要的企业信息,如图5所示。搜索结果的展示是一个二级页面:第一级结果显示页是根据用户的需求显示出所有符合条件的企业,为用户提供选择范围,如图6所示;若用户需要了解自己感兴趣企业的详细信息,可直接点击链接进入第二级结果显示页,可显示该企业包括详细地址、公司简介等详细信息,如图7所示。
4 结 语
本文描述的基于企业名录的垂直搜索系统采集的企业信息包括企业工商注册号,其来源于各地工商信息系统,确保了数据来源的可靠性,不仅可以为用户提供正规精准的企业信息,还可以有效辨识企业的真伪;而且本系统利用垂直搜索引擎实现了联合搜索功能,用户可以根据自己所需输入企业筛选条件,例如所查找企业的所在地区、公司性质、注册资本等条件来进行搜索,提高搜索效率;本系统可以依据用户条件进行相应的企业搜索,可对用户提供相关行业中企业的信息,有助于企业用户选择所需的商业合作伙伴等,形成有效的商业产业链,促进企业之间的合作与发展,从而促进商业发展。
参考文献:
[1] 王文钧,李巍.垂直搜索引擎的现状与发展探究[J].情报科学,2010,(3).
[2] 张博,蔡皖东.面向主题的网络蜘蛛技术研究与系统实现[J].微电子学与计算机,2009,(5).
[3] 林海霞,原福永,陈金森.一种改进的主题网络蜘蛛搜索算法[J].计算机工程与应用,2008,(2).
[4] 周纯.垂直搜索引擎技术进展[J].知识经济,2011,(9).
[5] 季春,姜琴,吴铮悦.垂直搜索引擎关键技术研究综述[J].情报科学,2012,(10).
期刊库(http://www.zgqkk.com),是一个专门从事期刊推广、投稿辅导的网站。
本站提供如何投稿辅导,寻求投稿辅导合作,快速投稿辅导,投稿辅导格式指导等解决方案:省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。
【免责声明】本文仅代表作者本人观点,与投稿辅导_期刊发表_中国期刊库专业期刊网站无关。投稿辅导_期刊发表_中国期刊库专业期刊网站站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。
投稿辅导服务咨询与期刊合作加盟
陆老师联系QQ: 913775405(普刊)
蒋老师联系QQ: 867306987(核心)
刘老师联系QQ: 271374912(核心)
联系电话:18015016272
17327192284
投稿辅导投稿邮箱:zgqkk365@126.com
期刊推荐
- 《课程教育研究》 旬刊 国家级
- 《网络空间安全》(信息安全与技术)月刊 国
- 《价值工程》旬刊 国家级 科技统计源期刊
- 《高教论坛》 月刊 省级
- 《法制与社会》旬刊 省级
- 《中国教育学刊》月刊 14版北大核心
- 《语文建设》 旬刊 14版北大核心
- 《中国绿色画报》 月刊 国家级
- 《社科纵横》季刊 社科类优秀期刊
- 《求索》月刊 14版北大核心期刊
- 《财会月刊》旬刊 14版北大核心
- 《艺术品鉴》 月刊 省级
- 《中华建设》月刊 国家级 建设类优秀期刊
- 《教学与管理》旬刊 北大核心
- 《当代经济》 旬刊 省级
- 《新课程研究》旬刊 省级 教育类优秀学术期
- 《文教资料》 旬刊 省级
- 《学术界》 月刊 双核心
- 《吉林教育》旬刊 省级 教育类学术期刊
- 《中国农业资源与区划》 月刊 14版北大核心
- 《继续教育研究》月刊 北大核心期刊
- 《财经界(学术版)》半月刊 国家级
- 《电影评介》半月刊 14版北大核心
- 《公路交通科技》 月刊 北大核心
- 《新闻传播》月刊 省级 新闻类优秀期刊