Mysoo2 站内搜索引擎安装指南
百度阿拉丁平台剑指垂直搜索
谷歌测试在搜索建议中放广告
谷歌与百度的八年“暗战”
Google公布2008年度搜索排行榜
传戴尔PC将放弃谷歌选择微软Live搜索引擎
雅虎高级搜索专家陆奇将任微软数字部门高管
微软不娶雅虎 只想买搜索业务
微软退出搜索市场能对Google造更大伤害
雅虎打造BOSS垂直搜索引擎
谷歌百度口水战升级 比拼"谁更懂中文"
从百度“竞价门”看企业的社会责任感
山寨版搜索引擎“百谷虎”雷倒网友
雅虎搜索技术高管跳槽至微软
面对“搜索门” 百度公司力挽声誉
内容更新频率对SEO的影响


 ·从搜索引擎来访统计数据看各大搜索引擎
 ·搜索引擎下一个八年展望
 ·搜索引擎十年有多少故事
 ·搜索引擎暗规则
 ·中文搜索引擎技术揭密:排序技术
 ·谈谈搜索引擎使用方式对网络营销的影响
 ·搜索和门户的裂变
 ·对搜索引擎的思考
 ·刑侦角度看搜索
 ·站内搜索结果的质量关系到网上销售的效果




搜索引擎Antispam之道


 共1页 

  2003年上半年之前中文搜索引擎基本上没有大规模的搜索引擎作弊。2002年的时候百度的讨论区有搜索引擎爱好者讨论搜索技巧、搜索引擎相关知识会讨论到优化、友好,但是范围非常小,气氛主体是搜索技巧。也有部分人和公司做搜索引擎优化的,但是仅仅是针对某几个词汇做链接以获取在google的排名收取企业费用。当时我们还讨论过作弊和友好的界限定义很难区分的问题,现在想想,当时这种问题对中国人来说根本没有必要讨论。

  2003下半年中文搜索引擎作弊大面积泛滥,一时间“google、百度被爆奸了”甚至有人可以包揽某类关键词前几十页的所有条目,有人声称可以将任何词汇做到百度的前几名……,到2005年已经是全民作弊了。

  这时候,antispam成为中文搜索引擎的重点工作之一了。搜索引擎反作弊从开始以来一直都是处于被动防守状态,这是因为必须有人作弊,才能反作弊,几乎不可能预知作弊的新方式来预先antispam。而且也不存在破窗理论,因为一个网站作弊在某搜索引擎无效,但是会在其它搜索引擎有效。长期无效,但是短期有效。

  Antispam的目的是为了改善用户体验,丢弃垃圾信息。垃圾信息包括重复无穷次的信息和没有任何价值的信息,internet本来就存在很多的垃圾页面和垃圾信息和重复信息,再加上有很多人为的制作垃圾信息,那搜索引擎反垃圾就凸现出重要性了。

  反作弊其实不难,搜索引擎能管理数十亿的信息,那管理这么点垃圾信息还不是很轻松的事情?因为作弊具有共性,抓住这些共性就可以解决一类问题,一类问题一类问题的解决,作弊的影响就可以降到最低。极大程度的增加作弊的成本和风险。

  方法大致可以如下:建立每个网页和网站的spam系数,这个系数和这些参数相关:

  1.建立常用spam词表,分级别,分类。

  2.通过常用spam词表分析相关词汇重复频率、密度、位置、分布情况。设定多个阀值,每个阀值进行处理不同的处理。

  3.链接数量、质量、锚文本分析、spam链接工厂分析,进行spam判断。

  4.桥页,跳转页面、鬼文等各种常用作弊手法分析。

  5.搜索结果页面判断

  6.重复信息判断……

  当spam系数超过某个阀值的时候这个网页就被删除或者降权、当网站spam系数(网站spam系数来源于网站的页面spam系数加权)达到某个阀值的时候这个网站就进入spam管理人员的待处理信息列表中,spam管理人员进行人工判断,如果确实作弊那就把权值降到0%,或者直接删除。

  如果更深入一些可以再做:

  1.更深入的重复信息判断(重复信息的识别,可以识别到段,甚至句。对互联网上重复了1000次的spam的信息降低权值索引或不索引)

  2.基于视觉的网页块分析,对网页视觉中心的内容进行加权,非视觉中心的内容降权或者根据spam系数非视觉中心的内容不索引入库,

  3.简单的语法分析网页的正文内容是否符合正常的自然语言描述

  4.统计用户的点击行为、浏览行为进行分析。统计网站各类词汇的排名情况,找出不正常的网站……

  5.结构化信息抽取,针对链接的描述语言作为锚文本,同时降低锚文本的权值。(在垂直搜索引擎中更有效)

  6.其它一些技术来凸出优质信息。

  搜索引擎的反作弊和逐利的人们还会不断的博弈下去,

  这一轮必定是搜索引擎胜利,现在看来,搜索引擎很快就要占了上风了……

  还存在一些问题:

  1.比如我的文章在我的小站发布了,搜索引擎去重后留下的是其它网站转载的信息……

  2.反作弊后有很多域名不存在了,但是有用户会需要这些网站?如何解决这个用户体验?建一个spam网页索引?

  3.最大的问题是误判很正常,也很多,那误判怎么办?作弊网站的恢复机制?

  还有就是spam的标准问题可能在不久的将来会成为一个焦点。

  4.这篇文章我写了两次,感觉现在这个版本没有第一个版本的好。写两次是因为我在表单直接填写,结果session过期了,导致数据丢失,浪费了我一个小时。

  5.按照spam的定义,百度的竞价排名也是spam。广告在恰当的时候是搜索引擎内容的补充,那有没有可能利用垃圾页面?

 共1页 

来源: FullSearcher.Com | 作者: | 发表时间: 2006-9-1 19:25:00

 

 


Copyright © 2000-2008 Mysoo.com.cn, All Rights Reserved Mysoo.com.cn 版权所有                                  把Mysoo添加到 Google   沪ICP备06051139