Mysoo2 站内搜索引擎安装指南
百度阿拉丁平台剑指垂直搜索
谷歌测试在搜索建议中放广告
谷歌与百度的八年“暗战”
Google公布2008年度搜索排行榜
传戴尔PC将放弃谷歌选择微软Live搜索引擎
雅虎高级搜索专家陆奇将任微软数字部门高管
微软不娶雅虎 只想买搜索业务
微软退出搜索市场能对Google造更大伤害
雅虎打造BOSS垂直搜索引擎
谷歌百度口水战升级 比拼"谁更懂中文"
从百度“竞价门”看企业的社会责任感
山寨版搜索引擎“百谷虎”雷倒网友
雅虎搜索技术高管跳槽至微软
面对“搜索门” 百度公司力挽声誉
内容更新频率对SEO的影响


 ·SEO强效工具-Google Sit...
 ·让Google免费帮你增加你的网站访...
 ·百度空间在各大中文搜索引擎表现之研究
 ·网页关键词密度的七个常见问题
 ·站内搜索案例:提高商品成交率,创造卓...
 ·搜索引擎Antispam之道
 ·从搜索引擎来访统计数据看各大搜索引擎
 ·中文搜索引擎技术揭密:排序技术
 ·谈谈搜索引擎使用方式对网络营销的影响
 ·站内搜索结果的质量关系到网上销售的效果




让Google免费帮你增加你的网站访问量


 共2页  1  2 

  具体细节

  我已经提到过Google站点图在高层的目标,但是确实还是有很多的服务和警告。首先,Google指出站点图不会危害或帮助站点在Google的队列。实际上,Google已经在站点图FAQ中明确指出:“使用站点图不会影响PageRank(搜索引擎使用的一种网页重要性评估方式,它的值决定了网页在搜索结果中的排名)值,这对于如何计算网页的Ranking值毫无改变。”但是,网页的Ranking值由于以前没有被编入索引而现在被编入Google索引而升高。我的感受是:如果仅仅为了提升网页的Ranking值,则不需要使用站点图。如果最终Google正式指出站点图可以用于此目的或者你想从站点图获取些别的利益,你可以尝试采用这个方法。

  Google没有必要为你所提交的所有网页都制作索引。例如,如果在自己的站点提交URL,而此URL在robots.txt文件中是受保护的,则Google的网虫们将尊重在robots.txt文件中的设置而忽略提交给站点图服务器的任务。第二,Google不保证所有提交的网页都得到处理,但是提交的站点图仍会被Google的网虫们所使用以了解站点更多信息。正如Google所说的,向站点图提交信息只会帮助你而不会危害你。

  与其不显眼的潜在下降相比,站点图是一个很好的服务。首先,它甚至对于商业用途都是免费的。尤其对于那些身无分文的流浪者来说,这从来就不是件坏事。第二,站点图的一个要点就是高效的帮助人们更快的获得站点的索引。通过站点图比通过手工提交可以更快发现和处理你的网站、新的内容和内容的变动。

  最后也是最重要的,Google提供了站点图相关的报表工具可以收集到如下的很多方面的信息:

  • 查询统计:提供Google搜索用到的和返回关于你的网站的有关查询信息。
  • 处理统计:提供关于处理成功或失败的信息和PageRank信息。
  • 网页分析:提供站点的页面类信息例如何种类型网页和网页编码等总结信息。
  • 索引统计:告知站点是如何被索引的,例如,可以获得一个关于站点的索引列表,一个站点的链接列表,并且可以查看 Google关于你的站点存储信息和其它更多的信息。

使用Google站点图

现在你对于Google站点图能帮你解决那些问题有了更好的理解了,那么,就让我们进入到如何使用这种服务中来吧。

充分利用站点图有3个步骤:

  • 为你的站点创建站点图。
  • 将创建好的站点图添加到Google帐户。
  • 使用Google的报表和统计工具。

创建站点图

Google的站点图服务用到的站点图创建是采用Google自定义的开源的使用XML语言的“站点图协议”来给服务器提供你的站点关于设计方面的信息。Google甚至给你提供Google站点图产生器,它可以很有趣的为你创建现成的Google站点图。

如果要满足下面几项要求,则使用Google站点图产生器是你最好的选择:

  • 可以在网络服务器上运行Python2.2+脚本。
  • 通过某些方式可以向网络服务器上传文件。
  • 如果要使用access日志产生站点图,必须知道这些日志的编码方法。

开始时,需要有Google站点图产生器。因为我的示例站点建立在Linux服务器上,所以下载了产生器的“tar.gz”版本。我的主机支持运行Python脚本程序并且我使用的是Python 2.2.3版本。

将下载的命名成sitemap_gen-x.x.tar.gz文件放置于服务器的某个位置。我将下载的文件放在示例位置的根目录上。下一步,使用“gunzip”命令解压。

Gunzip –dc sitemap_gen-x.x.tar.gz | tar xvf

文件的内容将被解压到去掉“.tar.gz”后缀名的文件夹中。

在此文件夹中,找到example_config.xml文件 并将其拷贝到config.xml。编辑这个文件,注意下面几个必需(有些是可选)的参数。

  • base_url基本_url(必须):你的站点的顶层URL,在我的例子中是http://www.allinvites.com
  • store_into存储信息(必需):路径和文件名将被写入到站点图中,在我的例子中是“/home/alowe/www/sitemap.xml.gz”,你不需要预先创建这个文件
  • default_encoding默认编码(可选):默认值是UTF-8,如果你的系统上的URL和文件路径需要不同的编码方式,则改变这个值。
  • verbose详细信息(可选):默认值是“1”,可以设置成0到3之间的任何数。0提供无诊断的输出,3提供重要的输出。
  • url or urllist(url或urll列表)(可选):用这两个指令之一告诉站点图产生器那个URL应该包含到站点图中。可以在config文件中通过url指令单个列出每一个URL,或者可以使用urllist指令和指向一单独的包含所有需要的URL文本文件来列出所有的URL。在示例中我使用url指令来列出URL,在下文可以看到。如果你采用irllist指令,那么你需要在单独的文本文件中使用url指令。
  • url指令包含有一个必需的参数:href.Href参数,正如你所希望的,是一个全路径,包含有你的域,你想要包括的URL。也可以使用可选的属性:changefreq, lastmod, 和 priority.
    • Changefreq (从不、每年、每月、每周、每天、每时或一直)用于指示站点图中URL的内容间隔多久刷新一次。
    • Use lastmod (ISO8601 datestamp format) to identify when content last changed.
    • 使用lostmod来标记最近一次更新的时间。
    • 使用priority来告诉站点图那些与其它站点图内容相关的特殊URL的相对重要性。例如,值0.5表示站点图中URL的重要性质有值为1的URL的一半的重要性。这个优先权值可以影响搜索引擎对站点搜索的次序,但是不要认为将每个URL设置成最大值是最有帮助的。这仅仅是告诉搜索引擎你的站点上所有单个的URL具有相同的重要性。它不是被用来比较你的内容与其它站点内容重要性的。
  • directory目录(可选):使用这个标记来详细说明在特定的目录中将要包含的URL列表。这个指令有3个参数:path(路径), url, 和 default_file(默认文件。当url指令用于提供目录的网络路径时,path路径是目录的全路径名(例如:/home/alowe/www)。使用 default_file指令是告诉站点图产生器你的服务器的默认文件的名字(例如:index.phpindex.html
  • accesslog:使用两个参数:路径和编码,允许站点图产生器为URL解析日志(log)文件
  • Filter:使用此指令来包含或派出指定的文件。我将在www.allinvites.com配置文件示例中给出说明。

示例

如上所述,这是我为www.allinvites.com向Google站点图提交的示例配置文件:

<?xml version="1.0" encoding="UTF-8" ?>

  <!--?SITE INFORMATION -->

  <site base_url="http://www.allinvites.com/" store_into="/home/alowe/www/sitemap.xml.gz" verbose="1">

  ?<!--?INPUTS -->

  ?<directory path="/home/alowe/www/images" url="http://www.allinvites.com/images/" />

  ?<directory path="/home/alowe/www" url="http://www.allinvites.com/" default_file="index.php" />

  ?<!--?FILTERS -->

  ?<!--?Exclude URLs that end with a '~' -->

  ?<filter action="drop" type="wildcard" pattern="*~" />

  ?<!--?Exclude URLs within UNIX hidden files or directories -->

  ?<filter action="drop" type="regexp" pattern="/\.[^/]*" />

  </site>

在继续执行之前检查配置文件,使用如下命令:

pythonsitemap_gen.py --config=config.xml --testing

当冗余集设置成1的时候,仅仅可以得到脚本程序运行中发生事情的一些概况,如果需要更多的信息,则需要增加冗余水平,下面是例子的输出:

-bash-2.05b$ python sitemap_gen.py --config=config.xml --testing

  Reading configuration file: config.xml

  Walking DIRECTORY "/home/alowe/www/images/"

  Walking DIRECTORY "/home/alowe/www/"

  Sorting and normalizing collected URLs.

  Writing Sitemap file "/home/alowe/www/sitemap.xml.gz" with 77 URLs

  Search engine notification is suppressed.

  Count of file extensions on URLs:

  5  (no extension)

   1  .css

   8  .gif

   1  .gz

   27  .jpg

   1  .old

   22  .php

   3  .py

   2  .txt

   2  .xml

   5  /

  Number of errors: 0

  Number of warnings: 0

另外:Python脚本程序不能利用除了"config", "testing"和"help"参数之外的其它的参数。使用“config”指令是告诉脚本程序配置文件的名字,使用“testing”指令是在程序运行之前测试脚本的错误。

正如你所看到的,这里没有任何错误和警告。如果接收到错误信息,先更正配置文件然后再测试脚本,当测试到没有错误的时候,则可以删除“testing”指令,运行脚本程序了。

 共2页  1  2 

来源: ZDnet | 作者: | 发表时间: 2006-9-7 16:08:00

 

 


Copyright © 2000-2008 Mysoo.com.cn, All Rights Reserved Mysoo.com.cn 版权所有                                  把Mysoo添加到 Google   沪ICP备06051139