期刊库

教育   经济   科技   财会   管理   
医学   法学   文史   工业   建筑   
农学   水利   计算机   更多>>
 首 页    论文大全   论文精品    学术答疑    论文检测    出书咨询    服务流程    诚信通道    关于我们 

基于双层PDF和Lucene技术的全文检索研究与实现(3)

人气指数: 发布时间:2014-08-20 10:15  来源:http://www.zgqkk.com  作者: 向禹
分享到:

 

  3.4检索过程及结果处理

  全文检索在程序内部实际上是一个复杂的过程,通过分析,可总结为以下步骤:用户输入查询语句;词法分析和语言处理;搜索索引,得到符合条件的文档;对结果的相关性进行排序;将查询结果返回给用户界面。

  采用计分器QueryScorer qs来记录结果的相关性(权重值),根据权重值大小在界面上进行排序;采用Lucene处理关键字高亮显示;Highlighter利用段划分器Fragmenter将原始文本分割成多个片段,片段默认的大小为100个字符,将包含检索词的片段显示在检索结果中,便于用户浏览查看选择。系统还需进行特殊字符过滤、多重排序、结果分页等处理。

  3.5原文浏览

  通过检索过程,在用户界面得到了查询结果。接下来,需要浏览PDF原文,并查出检索词在原文中的具体位置。我们使用Acrobat Reader,结合档案管理系统,来实现检索词在原文中的自动定位。Reader软件本身对双层PDF文档的查找、文本复制、双层切换等功能都提供了支持,“搜索”窗口允许在多个PDF查找项目。

  在全文检索页面,浏览PDF全文是通过在页面内嵌套PDF控件的方式实现。通过程序传递参数给PDF控件,实现检索词在文档中的定位。

  而在档案管理系统内部,案卷和卷内目录链接的全文,需要点击链接,通过管理系统内嵌的阅读器来打开,与全文检索页面的实现有些区别。

  4一站式智能检索设计

  档案管理系统必须具备专业检索和一站式智能检索等检索途径,专业检索提供更为复杂的逻辑表达式组配,适合档案人员处理复杂用户需求时使用;而一站式检索带来的是便捷的用户体验,档案用户不必了解具体的档案分类和细节,通过一个检索入口便可以获得所需的信息。

  包含全文检索的一站式检索具备异构档案资源库和分布式资源库处理能力,对结构化与非结构化信息合并管理,对目录数据和原文必须进行同步索引。首先通过JDBC(Java Data Base Connectivity)连接数据库找到要索引的门类,通过卷内文件目录和案卷目录的ID号(Recid),查找原文关系表中的Recid,原文表中的这条记录有文件存放路径(Filepath)等信息,然后根据信息找到对应的原文(双层PDF文档),这样便可以对目录数据和原文进行同步索引。接下来,指定生成Index目录。而在检索时,只需要对索引进行访问,便可以很快的在各类档案目录库和全文库检索到用户需要的信息。

  5实现效果

  通过测试,系统自动从索引中检索出相关的信息,如果检索词包含在文档中,系统还使检索词在文档中自动定位,免去翻页查找的麻烦。若要缩小检索范围,只需要再增加检索词,检索词之间默认为逻辑“AND”的关系,检索结果按相关度排序,根据文档片段值的大小,将包含检索词的文档片段内容显示在检索结果界面,供用户浏览。

  运行表明,基于双层PDF文档技术的一站式全文检索,提高了工作效率。通过对跨数据表,跨数据类型,案卷、卷内目录数据和双层PDF的Text层同步索引,查询时访问索引而不访问数据库,有效减轻数据库和系统的压力。系统可以支持1 000万级的数据,毫秒级的响应时间,每秒500人的并发访问;可以适应不同的操作系统平台,支持多种数据库接口;具备通用搜索引擎的构架和功能,用户可任意输入检索信息,可多关键字、关键词组合搜索。

  全文检索是档案管理系统中很重要的检索途径,弥补了目录检索的不足,也解决了目录著录不全、不规范等问题,大幅度提高了查全率。全文检索无须编制任何检索目录,完全实现智能化、高效率检索,极大地提高了工作效率。虽然不同的档案管理系统可能会采用不同的编程语言和技术架构来实现,对Lucene规范中的技术取舍、采用和配置各有不同,但遵循Lucence架构的双层PDF全文检索的总体实现思想大同小异。双层PDF全文数据库为档案编研和数据挖掘提供了资源[6];也为档案信息聚合(RSS)的研究、定向主动的档案信息服务研究或者更深层次的档案服务成为可能。

  参考文献

  [1]管建和,甘剑峰.基于Lucene 全文检索引擎的应用研究与实现[J].计算机工程与设计,2007,(2):489-491.

  [2]forfuture1978.Lucene学习总结之一:全文检索的基本原理[EB/OL].http:∥forfuture1978.iteye.com/.

  [3]胡长春.基于Lucene的中文自然语言搜索引擎[D].上海:上海交通大学,2009:32-35.

  [4]解鹏飞.Lucene搜索引擎技术在国家海洋数字档案馆示范系统中的实现及应用[J].海洋环境科学,2008,(8):117-121.

  [5]yingsuixindong.全文检索引擎Lucene优点[EB/OL].http:∥blog.csdn.net/yingsuixindong/article/details/5580983.

  [6]向禹.基于SOA架构的高校档案资源管理系统设计与实现[D].长沙:中南大学,2013:61-67.

  


期刊库(http://www.zgqkk.com),是一个专门从事期刊推广、投稿辅导的网站。
  本站提供如何投稿辅导,寻求投稿辅导合作,快速投稿辅导,投稿辅导格式指导等解决方案:省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。


  【免责声明】本文仅代表作者本人观点,与投稿辅导_期刊发表_中国期刊库专业期刊网站无关。投稿辅导_期刊发表_中国期刊库专业期刊网站站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

 
QQ在线咨询
投稿辅导热线:
180-1501-6272
微信号咨询:
fabiaoba-com
咨询电话:18015016272 投稿邮箱:zgqkk365#126.com(#换成@)
本站郑重声明:文章只代表作者观点, 并不意味着本站认同。所载文章、数据仅供参考,使用前请核实,风险自负。
部分作品系转载,版权归原作者或相应的机构   若某篇作品侵犯您的权利,请来信告知.版权:周口博闻教育咨询有限公司 
Copyright © 2005-2023 . 期刊库 版权所有