Mysoo2 站内搜索引擎安装指南
雅虎搜索技术高管跳槽至微软
面对“搜索门” 百度公司力挽声誉
内容更新频率对SEO的影响
社区引导+SEO试验初期进度
Google升级第三方站点搜索 网页可按需抓取
谷歌开发高智能“未来搜索”技术
分析师:雅虎有4个理由接受微软收购搜索业务
谁来阻止搜索引擎的欺骗?
谷歌放弃与雅虎的搜索广告交易
雅虎失意搜索时代 再掀高管离职潮
“搜索后营销”迫在眉睫
当搜索引擎变成内容提供商
搜索引擎优化之网页标题优化完全版
电子商务平台实施搜索引擎优化的建议
百度COO叶朋:下一代搜索引擎是智能化搜索







可将Word和PDF文件转换为检索文本的工具


 共1页 

  这个包可以同时支持word和pdf这两种格式,可将这两种格式的文件中的文本转换为可以用于全文检索的文本。

  Code:

   FileInputStream in = new FileInputStream ("test.doc");

  WordExtractor extractor = new WordExtractor();

  String str = extractor.extractText();

  由于该组件读取doc和pdf的方法没有差异,所以可以不用考虑格式的不同 ,至于目录下读取通过 文件输入流 实现,重点实现子目录的递归。

来源: | 作者: | 发表时间: 2006-10-16 10:54:00

 

 


Copyright © 2000-2008 Mysoo.com.cn, All Rights Reserved Mysoo.com.cn 版权所有                                  把Mysoo添加到 Google   沪ICP备06051139