这个包可以同时支持word和pdf这两种格式,可将这两种格式的文件中的文本转换为可以用于全文检索的文本。
Code:
FileInputStream in = new FileInputStream ("test.doc");
WordExtractor extractor = new WordExtractor();
String str = extractor.extractText();
由于该组件读取doc和pdf的方法没有差异,所以可以不用考虑格式的不同 ,至于目录下读取通过 文件输入流 实现,重点实现子目录的递归。
|
来源:
| 作者:
| 发表时间:
2006-10-16 10:54:00
|
|
|