一直以为Robots META Tag是个很普遍的meta,因为靠robots.txt的语法并不能排除所有的页面,所以(至少我自己的)很多网站都有一些页面在用这个meta排除被搜索引擎收录。今天分析log时发现的:

该页面源代码:

robotstxt点org对Robots META Tag的描述:
| The Robots META tag is a simple mechanism to indicate to visiting Web Robots if a page should be indexed, or links on the page should be followed. “Robots META tag 用来告诉Robots该页面是否应该被索引、以及是否应该索引该页面上的其他链接” It differs from the Protocol for Robots Exclusion in that you need no effort or permission from your Web Server Administrator. “Robots.txt无法实现或者没有访问该服务器权限的时候可用Robots META tag" Note: Currently only few robots support this tag! “Baiduspider就是one of those other robots?” |
协议原文:http://www.robotstxt.org/wc/meta-user.html
Google:http://www.google.com/support/webmasters/bin/answer.py?answer=35303
就拿我这个被收录的页面来说,它所在的目录www.flyeon.com/gallery/是需要被索引的,而类似prisonbreak-p233648201.html这样的无法用robots.txt语法描述的文件是不希望被索引的,使用Robots META Tag是唯一的办法。
希望百度在打造第四代搜索引擎的时候把这个only few robots support 的功能加上,早日打入only few search engines的行列。
更新 - 有留言给出了猜测,我认定这个就是百度无法识别我的meta tag的原因:Baiduspider直接找<META NAME="ROBOTS”...而不是解析出所有跟索引有关的meta tag 建立属性树。在网上也有类似的讨论,如:http://www.webmasterworld.com/forum5/6782.htm。这个现象对于一个通过W3C的XHTML 1.0 Strict认证的页面应该没有责任。
Trackback: http://tb.donews.net/TrackBack.aspx?PostId=1064519