如何妙用robots.txt文件

发布时间：2012-08-16 17:39:26作者：知识屋

robots.txt文件的运用，在SEO技术里面是比较不易懂的知识，但是SEOER的我们又必须要去了解，因为它牵扯到一些代码、URL在内，也许稍微偏差一字，对网站的影响就和本身的效果远远不同了。
　　
　　robots.txt的功能分很多，我们如果合理运用好，对网站的帮助是起很大作用的。接下来我们来介绍一些比较常用的功能。
　　
　　一、利用robots.txt来限制网页快照
　　
　　很多搜索引擎都提供一个网页快照的功能。但是网页快照功能却有很多的弊端，例如事实内容在网页快照中更新不及时、索引网页快照浪费大量的服务器资源等。因此，我们有些时候可能并不需要搜索引擎来索引我们某个页面的网页快照。
　　
　　解决这样问题的办法很简单，只需要在你的网页元标记中（<head>和</head>之间）放置如下的一段代码。
　　
　　<metaname=”robots”content=”noarchive”>
　　
　　以上的一段代码限制了所有的搜索引擎建立你的网页快照。如果我们需要仅仅限制一个搜索引擎建立快照的话，就可以像如下这样去写
　　
　　<metaname=”Baiduspider”content=”noarchive”>
　　
　　需要注意的是，这样的标记仅仅是禁止搜索引擎为你的网站建立快照，如果你要禁止搜索引擎索引你的这个页面的话，请参照后面的办法。
　　
　　二、禁止搜索引擎抓取网页页面
　　
　　在SEO中，禁止搜索引擎抓取本页面或者是允许搜索引擎抓取本页面是经常会用到的。因为网页有一些是我们不需要用来参加关键词排名的，所以可以屏蔽掉。为了让搜索引擎禁止抓取本页面，我们一般的做法是在页面的元标记中加入如下的代码：
　　
　　<METANAME=”ROBOTS”CONTENT=”NOINDEX,FOLLOW”>
　　
　　<metacontent=’张家界’name=deｓｃｒｉｐｔion>
　　
　　在这里，METANAME=”ROBOTS”是泛指所有的搜索引擎的，在这里我们也可以特指某个搜索引擎，例如METANAME=”Googlebot”、METANAME=”Baiduspide”、METANAME=””等。content部分有四个命令：index、noindex、follow、nofollow，命令间以英文的“,”分隔。
　　
　　INDEX命令：告诉搜索引擎抓取这个页面
　　
　　FOLLOW命令：告诉搜索引擎可以从这个页面上找到链接，然后继续访问抓取下去。
　　
　　NOINDEX命令：告诉搜索引擎不允许抓取这个页面
　　
　　NOFOLLOW命令：告诉搜索引擎不允许从此页找到链接、拒绝其继续访问。
　　
　　根据以上的命令，我们就有了一下的四种组合：
　　
　　<METANAME=”ROBOTS”CONTENT=”INDEX,FOLLOW”>：可以抓取本页，而且可以顺着本页继续索引别的链接
　　
　　<METANAME=”ROBOTS”CONTENT=”NOINDEX,FOLLOW”>：不许抓取本页，但是可以顺着本页抓取索引别的链接
　　
　　<METANAME=”ROBOTS”CONTENT=”INDEX,NOFOLLOW”>：可以抓取本页，但是不许顺着本页抓取索引别的链接
　　
　　<METANAME=”ROBOTS”CONTENT=”NOINDEX,NOFOLLOW”>：不许抓取本页，也不许顺着本页抓取索引别的链接。
　　
　　这里需要注意的是，不可把两个对立的反义词写到一起　　
　　<METANAME=”ROBOTS”CONTENT=”INDEX,NOINDEX”>
　　
　　或者直接同时写上两句
　　
　　<METANAME=”ROBOTS”CONTENT=”INDEX,FOLLOW”>
　　
　　<METANAME=”ROBOTS”CONTENT=”NOINDEX,FOLLOW”>
　　
　　这里有一个简便的写法，如果是
　　
　　<METANAME=”ROBOTS”CONTENT=”INDEX,FOLLOW”>的形式的话，可以写成：
　　
　　<METANAME=”ROBOTS”CONTENT=”ALL”>
　　
　　如果是
　　
　　<METANAME=”ROBOTS”CONTENT=”NOINDEX,NOFOLLOW”>的形式的话，可以写成：<METANAME=”ROBOTS”CONTENT=”NONE”>
　　
　　当然，我们也可以把禁止建立快照和对于搜索引擎的命令写到一个命令元标记中。从上面的文章中我们得知，禁止建立网页快照的命令是noarchive，那么我们就可以写成如下的形式：<METANAME=”ROBOTS”CONTENT=”INDEX,FOLLOW,noarchive”>
　　
　　如果是对于单独的某个搜索引擎不允许建立快照，例如百度，我们就可以写成：
　　
　　<METANAME=”Baiduspider”CONTENT=”INDEX,FOLLOW,noarchive”>
　　
　　如果在元标记中不屑关于蜘蛛的命令，那么默认的命令即为如下
　　
　　<METANAME=”ROBOTS”CONTENT=”INDEX,FOLLOW,archive”>
　　
　　因此，如果我们对于这一部分把握不准的话，可以直接写上上面的这一行命令，或者是直接留空。
　　
　　在SEO中，对于蜘蛛的控制是非常重要的一部分内容，所以希望各位看官准确把握这部分的内容有些时候我们会遇到这样的困难：我们原本不想被搜索引擎收录的网站后台地址却被搜索引擎“无情”的收录，这样只要在Google里输入一个“后台、管理”，自己的后台地址就会显露无疑，因此网站安全性也无从谈起。遇到这样的情况时，我们如何阻止搜索引擎收录我们不想被收录的文件呢？
　　
　　一般在这个时候，我们常用的办法有两个，一个是编辑robots.txt文件，另外一个是在不想被收录的页面头部放置METANAME=”ROBOTS”标签。
　　
　　所谓的robots.txt文件，是每一个搜索引擎到你的网站之后要寻找和访问的第一个文件，robots.txt是你对搜索引擎制定的一个如何索引你的网站的规则。通过这个文件，搜索引擎就可以知道在你的网站中，哪些文件是可以被索引的，哪些文件是被拒绝索引的。www.zhishiwu.com 最基础最实用的电脑技术网
　　
　　在很多网站中，站长们都忽略了使用robots.txt文件。因为很多站长都认为，自己的网站没有什么秘密可言，而且自己也不太会使用robots.txt的语法，因此一旦写错了会带来更多的麻烦，还不如干脆不用。
　　
　　其实这样的做法是不对的。在前面的文章中我们知道，如果一个网站有大量文件找不到的时候（404），搜索引擎就会降低网站的权重。而robots.txt作为蜘蛛访问网站的第一个文件，一旦搜索引擎要是找不到这个文件，也会在他的索引服务器上记录下一条404信息。
　　
　　虽然在百度的帮助文件中，有这样的一句话“请注意，仅当您的网站包含不希望被搜索引擎收录的内容时，才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容，请勿建立robots.txt文件。”但是我个人还是认为建立robots.txt还是必须的，哪怕这个robots.txt文件是一个空白的文本文档都可以。因为我们的网站毕竟不是仅仅会被百度收录，同时也会被其他搜索引擎收录的，所以，上传一个robots.txt文件还是没有什么坏处的。

（免责声明：文章内容如涉及作品内容、版权和其它问题，请及时与我们联系，我们将在第一时间删除内容，文章内容仅供参考）