首 页文档资料下载资料维修视频包年699元
请登录  |  免费注册
当前位置:精通维修下载 > 文档资料 > 电脑技术 > 工具软件
福昕新工具 PDF也能文内搜索
来源:华军资讯  作者:厂商投递  2010-03-03 13:17:19



  

  “Filter”这个英文单词直译为过滤、搜索。提到“搜索”,大家立马联想到的就是——搜索引擎,因为百度、google等知名搜索引擎的广泛运用,为用户提供检索服务,极大地方便了网民对互联网的运用。据数据显示,中国4亿的网民平均每人每天至少有3次需要用到搜索引擎。可见,搜索功能的运用早已是大势所趋。

  以百度为例,百度的搜索引擎工具是一种全文搜索引擎。通过自己的网页抓取程序,俗称“爬虫”或“蜘蛛”,顺着互联网网页中的超链接连续地抓取网页,并提取信息建立网页数据库。当搜索引擎抓到网页后,再做大量的预处理工作,像是提取关键字等,再提供检索服务。当用户输入检索的信息,搜索引擎便从索引数据库中找到匹配该关键字的网页。基本上这种全文的搜索引擎的工作流程是:“爬虫”爬取网页信息——处理网页信息,提取关键字等——搜索时,匹配关键字的网页信息。

  现在不仅仅是网页需要搜索,个人电脑里的文件也需要搜索。电脑中的在文件或文件夹中搜索,实现了对发件人、作者、日期、文件名等的过滤,而像word、excel则实现了对文档里的内容部分进行查找。在PDF领域,也有可实现搜索的PDF相关内容的搜索工具。国内的只有Foxit PDF Iflilter(亦称“福昕PDF搜索器),国外的PDF搜索工具主要有Adobe PDF IFilter和TET PDF IFilter。

  这里以Foxit PDF IFilter为例,简要介绍下它的工作过程:

  PDF IFilter可以帮助用户对大量的PDF 文档进行索引,从而使用户快速搜索到PDF文档内的文本。Foxit PDF IFilter 可以说是全文本搜索引擎的一个组件。通常搜索引擎分两个步骤来工作:

  步骤1,搜索引擎首先遍历一个指定的位置,比如一个文件目录或数据库,然后在后台为所有的文档或最新更改过的文档进行索引,并建立内部数据来存储索引结果。

  步骤2,用户指定想要搜索的关键词,接到搜索请求后,搜索引擎快速查阅索引结果,将所有包含关键词的文档反馈给用户。

  在步骤1中,搜索引擎本身并不会识别PDF文档格式。因此,它要通过windows 注册表来查询一个相关的PDF IFilter, 那就是Foxit PDF IFilter. Foxit PDF IFilter 识别 PDF 格式。 它可以从文档中过滤掉格式,抽取出文本,然后返回给搜索引擎。同样是利用关键词索引的原理,其中只是有些细微的差别。

  纵观所有的搜索引擎工具,其最重要的特点就是:快!准!

  现在百度搜索结果的过程都提高到0.001秒的程度了。至于它的准确率自然不用说,如果不准的话百度也无法获得庞大用户的喜爱。而对于PDF方面,目前还不能和百度的处理速度相提并论,但在三种主流PDF过滤器内,还是有其可比性的。福昕PDF搜索器2.0刚一发布,一位软件评论家即在MSDN博客上发表了相关博文,其中一则测试结果显示:Foxit PDF IFilter2.0仅用了13分钟便完成了全部检索,它比 TET PDF IFilter软件快6倍,更比Adobe PDF IFilter软件快39倍! 

  多么惊人、明显的对比结果。换句话说,同一环境、同样文件数的基础上,Adobe PDF IFilter需要用8个多小时才能完成整个搜索任务。看来,Foxit PDF IFilter这个“爬虫”爬的还比较快。它可爬到的PDF文档可以是文件,且不仅仅是文件名或文件夹的名称,甚至包括PDF文件里包含的文字内容,也可以是邮件附件或数据记录。且Foxit PDF IFilter2.0在多核的机器上,其索引速度是旧版本的三倍,性能提到极大的优化。

  福昕公司销售副总裁助理埃里克·布莱恩特认为:“随着Foxit PDF IFlter 2.0的发布,福昕公司在这个具有重要价值的产品上取得了巨大的进步,并将因为其丰富全面的功能,从而带给客户无可比拟的搜索性能。福昕公司将继续走在PDF领域的前端。”

关键词:

文章评论评论内容只代表网友观点,与本站立场无关!

   评论摘要(共 0 条,得分 0 分,平均 0 分)
Copyright © 2007-2017 down.gzweix.Com. All Rights Reserved .
页面执行时间:119,261.70000 毫秒