期刊库

教育   经济   科技   财会   管理   
医学   法学   文史   工业   建筑   
农学   水利   计算机   更多>>
 首 页    论文大全   论文精品    学术答疑    论文检测    出书咨询    服务流程    诚信通道    关于我们 

基于双层PDF和Lucene技术的全文检索研究与实现

人气指数: 发布时间:2014-08-20 10:15  来源:http://www.zgqkk.com  作者: 向禹
分享到:

 

  〔摘要〕通过建设双层PDF全文数据库、创建索引和全文检索等实现过程来阐述相关技术的研究和运用。以建设全文数据库为基础,研究结构化信息与非结构化数据的合并管理,对目录数据和全文数据的同步索引,基于Lucene技术,实现档案管理系统的一站式智能化档案全文检索,提升档案查全率。

  〔关键词〕双层PDF;全文检索;档案管理;Lucene

  〔中图分类号〕TP391〔文献标识码〕B〔文章编号〕1008-0821(2014)06-0075-04

  由于档案的凭证性、惟一性和不可替代性,导致用户和档案行业更注重查全率。传统的档案管理手段,由于对标引和著录标准的理解、执行和操作、人员责任心等方面的差异,导致著录信息和检索效果不尽人意。基于Lucene技术,依托双层PDF文档,对结构化和非结构化信息合并管理,在档案管理系统中实现一站式全文检索,具有很重要的现实意义。

  1档案检索研究现状

  传统档案检索,主要是对档案信息著录和标引进行研究,编制检索目录和目录检索系统,常见的检索工具有主题、分类、字序、文号等多种方式,检索系统有简单检索、复合逻辑组配表达式检索等。著录和标引质量提高,检索工具完备均能提高查全率,但存在缺陷,且效率较低。要实现高查全率,必须研究在档案文档中实现内容检索。

  Lucene是一个非常优秀的全文本型检索框架[1],在文本型的全文检索方面得到广泛的支持和运用;然而,对纸质档案进行数字化扫描加工,最好的存储方式仍为图片格式的非文本型文档,要实现全文检索并非易事;基于图像的检索技术的研究也还不成熟,效果并不理想。

  2全文检索思想与技术

  档案资源数据有多种类型:一是结构化数据,有固定格式和长度,如数据库或者元数据,数据表格等;二是非结构化数据,特点是不定长和无固定格式,如Word、PDF、JPG等文档;三是半结构化数据,如XML、HTML等,这类数据比较灵活,可根据需要按结构化处理,也可按非结构化处理,在使用Web Service方式的系统集成对接时,协议中采用的数据传输格式大多为XML。对于结构化的语句,采用SQL语句很容易实现检索。非结构化的数据,通常称作全文数据,检索方式有两种[2]:一种是顺序扫描法,对每一个文档都从头至尾进行扫描,搜索出包含检索词的文档,如Windows系统中的查找功能,但这种方式,搜索效率低,速度慢;另一种方式便是我们要重点讨论的全文检索。

  2.1全文检索思想

  由于结构化的数据格式是有规律的,用算法容易实现很高的检索效率。全文检索的基本思想便是:把全文数据中信息提取出来,重新进行组织成索引,使其结构化规律化,再按一定的算法对其进行检索。从过程上来看,可简单地分为索引和检索两个过程,但在实际处理过程中,包含的模块构成有:前端查询平台、中文分词、解析引擎、后台管理等。

  2.2双层PDF技术

  非结构化的数据,又分为文本型和非文本型。对于文本型或者超文本型的文档,全文检索的研究应用已经比较广泛和成熟。而非文本型的文档无法直接实现全文检索,双层PDF文档技术便是解决这一问题的最佳方式之一。

  双层PDF文件是一种包含Text层和Image层的多层结构PDF文件,两层内容位置上相对应,Image层是原始图像,保留了原始档案的效果;Text层是Image层的OCR识别结果,支持选择、检索和复制等功能。通过程序控制可实现两个图层的任意显示和切换,可实现检索词的精确定位。双层PDF文档可以是图像型通过档案数字加扫描加工而成;也可以是文本型,通过文本文件如WORD转换。

  2.3全文检索引擎Lucene

  Lucene是目前最为流行的基于Java开源全文检索工具包[3]。它并不是一个完整的搜索程序[4],不能直接嵌入系统中使用;而是一个类库,一种思想和架构。Lucene提供简单的工具包,方便软件开发人员在应用系统中实现全文检索功能。Lucene具备五大优点[5]:索引文件格式独立于应用平台;可分块索引,为增量文件建立小索引,通过与原索引合并,提升效率;面向对象的架构,便于扩充;独立的文本分析接口,与语言和文件格式无关;具备强大的查询引擎,包括布尔逻辑、分组查询、模糊查询等,开发人员无需再编写代码。

  Lucene的源码由7个模块(包)组成:分词模块、索引管理、检索管理、数据存储管理、查询分析器及公用类库。为了对文档进行索引,Lucene提供了5个基础的类,Document、Field、IndexWriter、Analyzer、Directory。全文检索系统功能强大,实现起来也比较复杂,但从实现过程来看,主要分为索引和检索两大功能。

  3全文检索的实现

  主要运用lucene技术,基于PDF文档,对中文分词、解析引擎、索引、过滤、专业词库等方面进行了重构与优化,由前端查询、索引模块、分词、搜索引擎、后台管理等模块构成。通过全文检索的分词系统、索引系统、引擎系统将海量数据快速展现在用户面前,并支持多关键词、同义词、近义词等检索。


期刊库(http://www.zgqkk.com),是一个专门从事期刊推广、投稿辅导的网站。
  本站提供如何投稿辅导,寻求投稿辅导合作,快速投稿辅导,投稿辅导格式指导等解决方案:省级投稿辅导/国家级投稿辅导/核心期刊投稿辅导//职称投稿辅导。


  【免责声明】本文仅代表作者本人观点,与投稿辅导_期刊发表_中国期刊库专业期刊网站无关。投稿辅导_期刊发表_中国期刊库专业期刊网站站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。

 
QQ在线咨询
投稿辅导热线:
180-1501-6272
微信号咨询:
fabiaoba-com
咨询电话:18015016272 投稿邮箱:zgqkk365#126.com(#换成@)
本站郑重声明:文章只代表作者观点, 并不意味着本站认同。所载文章、数据仅供参考,使用前请核实,风险自负。
部分作品系转载,版权归原作者或相应的机构   若某篇作品侵犯您的权利,请来信告知.版权:周口博闻教育咨询有限公司 
Copyright © 2005-2023 . 期刊库 版权所有