2009/03/01 3 Comments
这几天因为帮朋友测试wordpress,就顺便了解了一些关于wordpress的robots.txt的写法,并打算将这些经验应用到Bo-Blog上,所以在这跟大家探讨一下下面的写法是否可行或者说是否有错漏不周之处。
Bo-Blog本身自带有一个robots.txt,内容如下:
可以看出这个默认的robots.txt相对比较宽松,基本只是屏蔽了对一些系统目录的抓取,我在参考了一些wordpress的经验后对这个robots.txt做出了一些修改,如下(注意:下面这个robots.txt是建立在开了高级URL优化的前提下的,如果没开URL的高级优化,切不可照搬,请根据自己的需求做出适当修改):
前面带有“#”的是我加上去的条目,作用大致如下:“Disallow: /*category”屏蔽对分类的抓取,因为分类页面很大程度上可能跟首页和翻页页面类似从而造成抓取到重复内容,开启高级URL优化时有效;“Disallow: /cgi-bin/”屏蔽对/cgi-bin/目录的抓取;“Disallow: /feed.php”屏蔽对feed的抓取,据说很多搜索引擎对于feed已经自动无视,但是据说某个引擎却依然将feed当成重复页面从而招来惩罚;“Disallow: /guestbook.php”屏蔽对留言簿内容的抓取;“Disallow: /read.php”,开启高级URL优化后对原有动态链接方式进行屏蔽,避免抓取到两个一样的页面;“Disallow: /user/”屏蔽对用户资料页面的抓取,开启高级URL优化时有效。
其中“Disallow: /*category”这一条是我最不能确认是否合适的,并且因为我个人并不了解SEO,可以说是完全的SEO盲,所以如果有错漏之处,请大家留言指正,谢谢。
另外,如果你的blog放置于类似/blog/的目录下,那么需要将该目录添加进去,如“Disallow: /blog/admin/”,并将robots.txt放置在网站根目录下。
最后再次声明,请根据自己的实际情况对该文件进行修改!
Bo-Blog本身自带有一个robots.txt,内容如下:
User-agent: *
Disallow: /admin/
Disallow: /bak/
Disallow: /data/
Disallow: /editor/
Disallow: /inc/
Disallow: /install/
Disallow: /images/
Disallow: /attachment/
Disallow: /temp/
Disallow: /template/
Disallow: /plugin/
Disallow: /view.php
Disallow: /admin/
Disallow: /bak/
Disallow: /data/
Disallow: /editor/
Disallow: /inc/
Disallow: /install/
Disallow: /images/
Disallow: /attachment/
Disallow: /temp/
Disallow: /template/
Disallow: /plugin/
Disallow: /view.php
可以看出这个默认的robots.txt相对比较宽松,基本只是屏蔽了对一些系统目录的抓取,我在参考了一些wordpress的经验后对这个robots.txt做出了一些修改,如下(注意:下面这个robots.txt是建立在开了高级URL优化的前提下的,如果没开URL的高级优化,切不可照搬,请根据自己的需求做出适当修改):
User-agent: *
Disallow: /admin/
Disallow: /attachment/
Disallow: /bak/
#Disallow: /*category
#Disallow: /cgi-bin/
Disallow: /data/
Disallow: /editor/
#Disallow: /feed.php
#Disallow: /guestbook.php
Disallow: /inc/
Disallow: /images/
Disallow: /plugin/
#Disallow: /read.php
Disallow: /temp/
Disallow: /template/
#Disallow: /user/
Disallow: /view.php
Disallow: /admin/
Disallow: /attachment/
Disallow: /bak/
#Disallow: /*category
#Disallow: /cgi-bin/
Disallow: /data/
Disallow: /editor/
#Disallow: /feed.php
#Disallow: /guestbook.php
Disallow: /inc/
Disallow: /images/
Disallow: /plugin/
#Disallow: /read.php
Disallow: /temp/
Disallow: /template/
#Disallow: /user/
Disallow: /view.php
前面带有“#”的是我加上去的条目,作用大致如下:“Disallow: /*category”屏蔽对分类的抓取,因为分类页面很大程度上可能跟首页和翻页页面类似从而造成抓取到重复内容,开启高级URL优化时有效;“Disallow: /cgi-bin/”屏蔽对/cgi-bin/目录的抓取;“Disallow: /feed.php”屏蔽对feed的抓取,据说很多搜索引擎对于feed已经自动无视,但是据说某个引擎却依然将feed当成重复页面从而招来惩罚;“Disallow: /guestbook.php”屏蔽对留言簿内容的抓取;“Disallow: /read.php”,开启高级URL优化后对原有动态链接方式进行屏蔽,避免抓取到两个一样的页面;“Disallow: /user/”屏蔽对用户资料页面的抓取,开启高级URL优化时有效。
其中“Disallow: /*category”这一条是我最不能确认是否合适的,并且因为我个人并不了解SEO,可以说是完全的SEO盲,所以如果有错漏之处,请大家留言指正,谢谢。
另外,如果你的blog放置于类似/blog/的目录下,那么需要将该目录添加进去,如“Disallow: /blog/admin/”,并将robots.txt放置在网站根目录下。
最后再次声明,请根据自己的实际情况对该文件进行修改!
Leave a comment
abhi
2010/04/21 03:09
Thanks for this. mac data recovery
dst 

2009/08/18 10:00
Looking wow gold
翎峋 

2009/03/03 18:54
这个好像只有少数几个搜索蜘蛛才遵守,就像某把雅虎和奇虎都做了限制,却毫无用处。
Google遵守,百度明面上说是也遵守,其他估计就有些悬了。
分页: 1/1
1
1

