Mysoo2 站内搜索引擎安装指南
百度阿拉丁平台剑指垂直搜索
谷歌测试在搜索建议中放广告
谷歌与百度的八年“暗战”
Google公布2008年度搜索排行榜
传戴尔PC将放弃谷歌选择微软Live搜索引擎
雅虎高级搜索专家陆奇将任微软数字部门高管
微软不娶雅虎 只想买搜索业务
微软退出搜索市场能对Google造更大伤害
雅虎打造BOSS垂直搜索引擎
谷歌百度口水战升级 比拼"谁更懂中文"
从百度“竞价门”看企业的社会责任感
山寨版搜索引擎“百谷虎”雷倒网友
雅虎搜索技术高管跳槽至微软
面对“搜索门” 百度公司力挽声誉
内容更新频率对SEO的影响







Yahoo更新 Slurp 3.0搜索爬虫机制


 共1页 

  Yahoo于周一(4/14)表示,该公司最近正逐步更新搜索引擎,并采用新的Yahoo! Slurp 3.0搜索爬虫机制,预计要几周内分阶段完成全球更新。

  搜索爬虫(crawler)或称网络爬虫是搜索引擎后端的重要元素,它在全球的因特网上漫游,并搜集所有网站资料并回传到搜索引擎服务器上。

  Yahoo说明,新的Yahoo! Slurp 3.0仍能辨识与先前Yahoo! Slurp一样的使用者代理人及所有的robots.txt指令,只是它在用户的网页纪录上会将其视为Yahoo! Slurp 3.0。

  Yahoo! Slurp 3.0将从一个不同的小群IP地址开始搜集数据,但同样来自crawl.yahoo.net domain。不过,Yahoo表示若网站业者使用以IP为基础的爬虫辨识设定,可能会被Yahoo爬虫所忽略,因此强烈建议业者采用反向DNS辨识,任何利用反向DNS来确认Yahoo爬虫的皆能持续运作。

  此外,新爬虫会发表一个新的Yahoo! Slurp/3.0使用者代理人,既有的Slurp或Yahoo! Slurp底下的robots.txt指令都能继续运作,不过新爬虫无法辨识以Slurp/2.0为名的用户代理人指令。

  robots.txt是一存放于网站根目录中的文本文件,用来定义网站上哪些内容可以或不能供网络爬虫存取,Yahoo也在网站上说明如何利用robots.txt以避免网站或特定网页资料不被搜索引擎搜集及索引

 共1页 

来源: | 作者: | 发表时间: 2008-4-21 15:05:00

 

 


Copyright © 2000-2008 Mysoo.com.cn, All Rights Reserved Mysoo.com.cn 版权所有                                  把Mysoo添加到 Google   沪ICP备06051139