|
|
| 在 Linux 上构建 Web spider | Web spider 是用来进行 Internet 信息的搜索、过滤和聚合的软件代理。使用通用脚本语言和一些 Web 模块组合,就可以轻松地开发自己的 Web spider。本文介绍了如何为 Linux? 构建 spider 和 scraper,从而实现在 Web 站点上爬行并搜集信息,具体到本例就是搜集股票数据。 阅读全文:在 Linux 上构建 Web spider |
|
M. Tim Jones | 2007-1-1 0:26:00 |
|
| 如何为Lucene增加中文分词功能 | 分词模块对于搜索的重要性不言而喻。例如,没有分词时,搜索“和服”会出现“产品和服务”,搜索“海尔”会出现“海尔德”,搜索“华为”会出现“清华为何”。所以有必要给文本增加词的边界信息以提高检索精确度。 阅读全文:如何为Lucene增加中文分词功能 |
|
| 2006-12-22 11:35:00 |
|
| Larbin网站爬虫简明使用说明 | larbin是一种爬虫工具,我也是前段时间网上看到 Larbin 一种高效的搜索引擎爬虫工具 一文时才知道有这么个东西,初步认定,我比较喜欢这个工具(比起nutch的crawl来说),因为它是C++写的,类似C嘛,我熟,可以自己改改,顺便学习一下C++(几年来的经验告诉我说:改别人的东西来学一种技术比从头写helloworld快很多)。于是开始了我艰辛的larbin试用之旅。 阅读全文:Larbin网站爬虫简明使用说明 |
|
林哥 | 2006-12-16 0:31:00 |
|
| 从Larbin看互联网爬虫设计 | 互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景,尤其是类似RSS的以XML为基础的结构化的数据越来越多,内容的组织方式越来越灵活,检索组织并呈现会有着越来越广泛的应用范围,同时在时效性和可读性上也会有越来越高的要求。这一切的基础是爬虫,信息的来源入口。一个高效,灵活可扩展的爬虫对以上应用都有着无可替代的重要意义。 阅读全文:从Larbin看互联网爬虫设计 |
|
| 2006-12-16 0:28:00 |
|
| 全文检索引擎Lucene源码分析-analysis包 | 我的毕业设计是基于全文检索引擎工具包Luncene的analysis包而实现的,期间查看了该包的源码并作了一些分析,现在贴出来以供参考。 阅读全文:全文检索引擎Lucene源码分析-analysis包 |
|
Lagvin | 2006-12-15 16:31:00 |
|
| 自建Web搜索引擎和站内搜索引擎攻略(五) | 本章介绍了面向主题的搜索策略,并作了详细阐述。虽然在新闻搜索中并没有应用到搜索策略,但是对于WWW搜索引擎来说,搜索策略是极其重要的。他直接关系到搜索的质量以及匹配度等性能。
阅读全文:自建Web搜索引擎和站内搜索引擎攻略(五) |
|
| 2006-12-13 11:20:00 |
|
| 自建Web搜索引擎和站内搜索引擎攻略(四) | 本章中详细介绍了如何构架基于Tomcat的Web服务器,使得用户通过浏览器进行新闻的搜索,最后还对Tomcat如何部署进行了说明。
阅读全文:自建Web搜索引擎和站内搜索引擎攻略(四) |
|
| 2006-12-13 10:30:00 |
|
| 自建Web搜索引擎和站内搜索引擎攻略(三) | 在进行海量数据搜索时,如果使用单纯的数据库技术,那将是非常痛苦的。速度将是极大的瓶颈。本章提出了使用全文搜索引擎Lucene进行索引、搜索。最后,还结合了具体代码说明了如何把Lucene全文搜索引擎和Spider程序互相集合来实现新闻搜索的功能。
阅读全文:自建Web搜索引擎和站内搜索引擎攻略(三) |
|
| 2006-12-12 9:32:00 |
|
| 自建Web搜索引擎和站内搜索引擎攻略(二) | 在本章中,首先介绍了网络机器人的基本概念,然后具体分析了Spider程序的结构和功能。在最后还结合具体代码进行了详细说明。
阅读全文:自建Web搜索引擎和站内搜索引擎攻略(二) |
|
| 2006-12-10 11:01:00 |
|
|