目前很多的搜索引擎都是将人工编制的等级式主题目录和计算机检索软件提供的关键词等检索手段结合起来,完成网络信息资源的组织任务。Yahoo就是这种等级式主题指南类搜索引擎的典型代表。
阅读全文:搜索引擎Yahoo的分类体系及性能评价
Robots Meta应该放置在网页的什么位置呢?
跟任何一种META标签是一样的,Robots Meta放置在HTML网页代码的HEAD之内。
阅读全文:Robots Meta标签及其用法
艾瑞根据iUserTracker网民行为研究数据的表示,2006年12月中国搜索引擎访问次数和用户覆盖数中,页面搜索的市场份额都是百度第一,Google第二。
阅读全文:06年用户页面搜索的选择集中度提高
现代信息社会已经是互联网的天下,而互联网则进入了一个搜索的时代,Google成为全球最大的互联网公司,百度在纳斯达克创造了神话,还有很多的基于无线互联网平台的搜索引擎,他们纷纷厉兵秣马,准备大干一场,希望在这片财富之地创造更大的奇迹,那么,谁将是无线搜索行业的霸主?在众多的无线搜索先行者之中,业内专业人士普遍看好新浪爱问iAsk。
阅读全文:谁能在无线搜索中称霸
NDFS:在一系列机器上存储庞大的面向流的文件,包含多机的存储冗余和负载均衡。
阅读全文:nutch分布式文件系统
本文旨在给nutch添加二分法中文分词,可以预计的结果是汉字的索引不再是一个个字分开来的,从而会大大的增加搜索的准确率
阅读全文:给nutch 0.8添加中文分词(二分法)
GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。
阅读全文:谈谈搜索巨擎--Google的文件系统
Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。
阅读全文:Google式的搜索引擎实现
Nutch主要分为两个部分:爬虫crawler和查询searcher。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者之间的耦合度很低。
阅读全文:Nutch爬虫工作流程及文件格式详细分析
现在实现基本中文分词功能的代码和软件模块很多,性能也还可以,但是怎样将其应用到NUTCH中的方法介绍相对较少,下面我就实现NUTCH中文分词的NUTCH代码修改方法与步骤,抛砖引玉的介绍一下。
阅读全文:实现NUTCH中文分词的代码修改方法