robots.txt是放在网站中,文件级的网络蜘蛛授权;而robots Meta标签是放在网页中,一般用于部分网页需要单独设置的情况下。两者的功能是一样的。
Meta robots标签必须放在<head>和</head>之间,格式:
<meta name=”robots” content=”index,follow” />
content中的值决定允许抓取的类型,必须同时包含两个值:是否允许索引(index)和是否跟踪链接(follow,也可以理解为是否允许沿着网页中的超级链接继续抓取)。共有4个参数可选,组成4个组合:
index,follow:允许抓取本页,允许跟踪链接。
index,nofollow:允许抓取本页,但禁止跟踪链接。
noindex,follow:禁止抓取本页,但允许跟踪链接。
noindex,nofllow:禁止抓取本页,同时禁止跟踪本页中的链接。 继续阅读…
日志标签:robots
昨天落水鱼又把自己的博客robots.txt给修改了一下,这样做的目的是,让搜索引擎看来网站更规范和权威。
1、用robots.txt屏蔽相似的页面或没内容的页面。
我们知道,搜索引擎收录网页后,会对网页进行“审核”,当网页的相似度很高时,会删除其中一个。
比如以下这两个链接,内容其实差不多,所以第二个链接应该屏蔽。
http://www.seobye.com/seo/638
http://www.seobye.com/archivers/p638.html
第二个的链接非常多,屏蔽时,只要屏蔽/archivers 就屏蔽了所有的。
代码如:Disallow: /archivers
继续阅读…

