如果你需要使用PHP实现对网站内大量数量进行全文检索,建议你考虑Lucene,因为目前最流行的全文检索的搜索引擎库就是Lucene了,它是Apache Jakarta的一个子项目,并且提供了简单实用的API,用这些API,就可以对任何基本文本的数据(包括数据库)进行全文检索。
阅读全文:教你用PHP调用Lucene包实现全文检索功能
建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Rank (网页排名) 时已经谈到了一些排序的问题,这里我们谈谈索引问题,以后我们还会谈如何度量网页的相关性,和进行网页自动下载。
阅读全文:简单之美:布尔代数和搜索引擎的索引
本文通过媒体报道分析推测一下GOOGLE将要采用的新算法长得是什么样子。
阅读全文:解析GOOGLE将要采用的新算法
这里基本上是用“通俗语言”概括计算机里最深奥的东西了。需要有很全面的计算机领域的专业理论(图灵机模型和Petri网论)和技术基础(程序设计语言、数据结构和算法原理与分析,以及计算机体系结构、支持多任务的现代并发操作系统、编译原理和软件工程),以及符号语法学的语言哲学知识等,才有可能比较好地把握住这些文字。理解的深度就是你对计算机的把握程度,欢迎提问或者反驳。这篇文字被收入《软件世界》2006年第13期54-56页。
阅读全文:语用网与计算自然语言
摘要:本文利用全文检索算法构造了一个适用于校园网络的搜索引擎,该引擎的主要特点是:将搜索引擎主要分为前端和后端,后端获取Web文档,然后分词,建立和更新索引;前端提取索引库中的内容,向客户提供检索服务。
阅读全文:利用全文检索技术实现校园网内的搜索
本文介绍了IETF构建公共网页搜索系统的标准提案“基于DNS的网页搜索引擎”。目前没有一个网页搜索引擎可以覆盖超过60%的互联网上全部网页,而大部分的网页数据库更新周期都在一个月左右。在更新率和覆盖率等关键性能上当前的搜索引擎多年来几乎没有任何明显的改进。为了解决搜索引擎遇到的这些瓶颈性问题,本文提出了一种全新的网页搜索引擎,“基于DNS的网页搜索引擎”。此系统采用了与现有商业化搜索系统完全不同的分层的分布式结构。从理论上讲,此系统可以覆盖全部的互联网网页,而且其网页数据库可以做到每天更新。此系统基本思路来源,详细内容和具体实施都将在本文中逐一介绍。
阅读全文:一种基于DNS的分层式网页搜索引擎研究
Google Blog Search对Blogger是一项非常有用的工具,它基于Blog内容的搜索使得搜索结果更加专一和有价值。
阅读全文:Blog搜索利刃:Google Blog Search站内搜索功能
8月份,Google adsense for search增加了一项新功能:在自己的网站上打开搜索结果。在此之前,当用google搜索引擎进行站内搜索时,搜索的结果都只能在google的网站上显示,而现在通过为Adsense for search的这项功能,就可以在网站上以框架的形式显示 Google 搜索结果,从而方便地为自己的网站定制一个强大的站内搜索引擎,并减少自己服务器的负担。具体操作如下:
阅读全文:Google新功能:真正定制自己的站内搜索引擎
对于一个网站来说,使用搜索引擎来进行站内搜索往往比自己编写的站内搜索引擎更高效,并且不占用网站服务器的资源,下面是我搜集到的几个主要搜索引擎(Google和百度、雅虎)的站内搜索代码,使用时只需要将代码里的"www.mysoo.com.cn"替换成你的网址即可。
阅读全文:解析Google百度雅虎的站内搜索引擎代码
不知你上网时注意到没有:一些内容丰富的网站,总建有一个站内搜索引擎,你只要输入你想阅读资料的类别(比如:windows98),一按“搜索”按钮,该网站所有关于“windows98”的文章列表就呈现在你的眼前,好不方便啊!要知道当自己想要查的资料老是找不到,整天按着“下一页”这个按钮把页面翻来翻去的,这真是一件烦心的事情。那么在网上建有家的朋友是不是也想在你的网站按一个这样的站内搜索引擎呢?在下面我介绍如何用ASP打造一个个人望站站内搜索引擎。
阅读全文:个人网站如何利用ASP打造站内搜索引擎