前两天SEOMoz发现和解决了一个很奇怪的Google收录问题。 SEOMoz有一个网页,是关于他们举办的Web 2.0大奖(Web 2.0 Awards)。 这个奖在网上还挺受欢迎,链接很多,URL是PR7。而且一直以来在Google搜索”Web 2.0 Award”时都排在第一位。 但前几天SEOMoz发现搜索Web 2.0 Award时,这个页面从Google消失了。排在最前面的是一个更深一层的页面。
SEOMoz也弄不清是这么回事。所以Rand联系了Google里面认识的人,Google的人建议最好把URL改成不以.0结尾。 注意看SEOMoz这个页面URL,后面没有跟着一个斜线/。在大部分情况下,URL结尾没有典型文件扩展名如.html,.php等时,URL会被当作目录,目录名后面没有斜线时,服务器会在后面自动加上一个斜线。比如SEO每天一贴,如果用户直接打开: http://www.chinamyhosting.com/seoblog 或者有其他网页链接到上面这个URL,服务器都会自动做一个301转向到: http://www.chinamyhosting.com/seoblog/ 由于某种原因,SEOMoz的这个URL并没有做301转向自动在目录后加上斜线,也就是说URL还是以.0结尾: http://www.seomoz.org/web2.0 浏览器和蜘蛛就把这个URL当作了文件名,这个文件的扩展名(或者说文件类型)是.0。而.0文件Google拒绝收录,就像.exe文件一样。 SEOMoz做了很多调查,发现页面没被收录问题确实是因为这个以.0结尾的URL。在网上找不到以.0结尾的文件被收录在Google数据库中。像以下这些文件在Google都没收录,但雅虎有收录:
而非常相似的下面这些URL,Google就有收录:
比较一下这两个URL,域名,链接深度等几乎都没什么区别,唯一的区别就是URL结尾的不同: en.opensuse.org/Bugs:Most_Annoying_Bugs_10.3 收录 SEOMoz发现了这个问题后,发了一篇帖子。很快Matt Cutts也回了篇帖子,做出了回复和调整。Matt Cutts说,是因为连到URL http://www.seomoz.org/web2.0 的链接足够多时使Google认为它是应该被收录的那个URL版本,但Google又不收录.0文件,所以SEOMoz的这个页面被删除了。 Matt Cutts还提到一个小技巧,要检查某种文件名是否会被Google中被收录,有一个很简单的指令如: filetype:exe
上面的搜索结果可以看到,没有直接以.exe结尾的URL被收录,也就是说.exe文件Google不收录。 同样.0文件Google一直到两天前还都不收录。不过Matt Cutts看到SEOMoz的这个帖子后,与工程师重新审视了一下现在以.0结束的URL,肯定也不都是垃圾页面(可能以前大部分是),所以对 Google收录算法做了一定调整,重新开始收录.0文件。其实很多网页以.0结束,并不是因为文件类型,而是像SEOMoz那样,在想写Web2.0 时,很巧合的以.0结尾而已。 现在搜索一下的话,已经可以看到SEOMoz的这个Web2.0奖网页已经重新被收录了:
第一,这种细节问题,不碰到还真想象不到。 第二,认识人好办事。 第三,Google经常也从善如流。
|


