Mysoo2 站内搜索引擎安装指南
雅虎搜索技术高管跳槽至微软
面对“搜索门” 百度公司力挽声誉
内容更新频率对SEO的影响
社区引导+SEO试验初期进度
Google升级第三方站点搜索 网页可按需抓取
谷歌开发高智能“未来搜索”技术
分析师:雅虎有4个理由接受微软收购搜索业务
谁来阻止搜索引擎的欺骗?
谷歌放弃与雅虎的搜索广告交易
雅虎失意搜索时代 再掀高管离职潮
“搜索后营销”迫在眉睫
当搜索引擎变成内容提供商
搜索引擎优化之网页标题优化完全版
电子商务平台实施搜索引擎优化的建议
百度COO叶朋:下一代搜索引擎是智能化搜索


首 页 > 资讯 > 搜索技术
在 Linux 上构建 Web spider

  Web spider 是用来进行 Internet 信息的搜索、过滤和聚合的软件代理。使用通用脚本语言和一些 Web 模块组合,就可以轻松地开发自己的 Web spider。本文介绍了如何为 Linux? 构建 spider 和 scraper,从而实现在 Web 站点上爬行并搜集信息,具体到本例就是搜集股票数据。

阅读全文:在 Linux 上构建 Web spider  

M. Tim Jones | 2007-1-1 0:26:00
如何为Lucene增加中文分词功能

  分词模块对于搜索的重要性不言而喻。例如,没有分词时,搜索“和服”会出现“产品和服务”,搜索“海尔”会出现“海尔德”,搜索“华为”会出现“清华为何”。所以有必要给文本增加词的边界信息以提高检索精确度。

阅读全文:如何为Lucene增加中文分词功能  

| 2006-12-22 11:35:00
Larbin网站爬虫简明使用说明

  larbin是一种爬虫工具,我也是前段时间网上看到 Larbin 一种高效的搜索引擎爬虫工具 一文时才知道有这么个东西,初步认定,我比较喜欢这个工具(比起nutch的crawl来说),因为它是C++写的,类似C嘛,我熟,可以自己改改,顺便学习一下C++(几年来的经验告诉我说:改别人的东西来学一种技术比从头写helloworld快很多)。于是开始了我艰辛的larbin试用之旅。

阅读全文:Larbin网站爬虫简明使用说明  

林哥 | 2006-12-16 0:31:00
从Larbin看互联网爬虫设计

  互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景,尤其是类似RSS的以XML为基础的结构化的数据越来越多,内容的组织方式越来越灵活,检索组织并呈现会有着越来越广泛的应用范围,同时在时效性和可读性上也会有越来越高的要求。这一切的基础是爬虫,信息的来源入口。一个高效,灵活可扩展的爬虫对以上应用都有着无可替代的重要意义。

阅读全文:从Larbin看互联网爬虫设计  

| 2006-12-16 0:28:00
Lucene1.9搜索引擎改进特性列表

  本文罗列了Lucene搜索引擎1.9 版本的改进特性列表的中文版,希望对大家有所帮助。

阅读全文:Lucene1.9搜索引擎改进特性列表  

| 2006-12-15 16:37:00
全文检索引擎Lucene源码分析-analysis包

  我的毕业设计是基于全文检索引擎工具包Luncene的analysis包而实现的,期间查看了该包的源码并作了一些分析,现在贴出来以供参考。

阅读全文:全文检索引擎Lucene源码分析-analysis包  

Lagvin | 2006-12-15 16:31:00
自建Web搜索引擎和站内搜索引擎攻略(五)

  本章介绍了面向主题的搜索策略,并作了详细阐述。虽然在新闻搜索中并没有应用到搜索策略,但是对于WWW搜索引擎来说,搜索策略是极其重要的。他直接关系到搜索的质量以及匹配度等性能。

阅读全文:自建Web搜索引擎和站内搜索引擎攻略(五)  

| 2006-12-13 11:20:00
自建Web搜索引擎和站内搜索引擎攻略(四)

  本章中详细介绍了如何构架基于Tomcat的Web服务器,使得用户通过浏览器进行新闻的搜索,最后还对Tomcat如何部署进行了说明。

阅读全文:自建Web搜索引擎和站内搜索引擎攻略(四)  

| 2006-12-13 10:30:00
自建Web搜索引擎和站内搜索引擎攻略(三)

  在进行海量数据搜索时,如果使用单纯的数据库技术,那将是非常痛苦的。速度将是极大的瓶颈。本章提出了使用全文搜索引擎Lucene进行索引、搜索。最后,还结合了具体代码说明了如何把Lucene全文搜索引擎和Spider程序互相集合来实现新闻搜索的功能。

阅读全文:自建Web搜索引擎和站内搜索引擎攻略(三)  

| 2006-12-12 9:32:00
自建Web搜索引擎和站内搜索引擎攻略(二)

  在本章中,首先介绍了网络机器人的基本概念,然后具体分析了Spider程序的结构和功能。在最后还结合具体代码进行了详细说明。

阅读全文:自建Web搜索引擎和站内搜索引擎攻略(二)  

| 2006-12-10 11:01:00
 共13页  1  2  3  4  5  6  7  8  9  10  11  12  13 

Copyright © 2000-2008 Mysoo.com.cn, All Rights Reserved Mysoo.com.cn 版权所有                                  把Mysoo添加到 Google   沪ICP备06051139