Robots.txt写法大全 — 编程爱好者社区

主题：Robots.txt写法大全

wangmeiyan.520 [专家分：0] 发布于 2012-05-30 15:12:00

robots.txt是搜索引擎访问网站时第一个抓取文件。它是告诉搜索引擎这个网站上面，哪些文件是可以被收录，哪些不允许被收录的，就好像我们贴在门上的告示一样。
如果你不想让搜索引擎访问自己网站（既拒绝收录）
User-agent: *
Disallow: /
如果你希望搜索引擎访问自己网站（既允许收录）
User-agent: *
Allow: /
或者新建一个空白robots.txt文件
如果你有一个目录想保密，而其他允许被搜索引擎收录（既禁止抓取特定目录）
User-agent: *
Disallow: /特定目录名称/
举例说明：如果禁止抓取特定目录是images话
User-agent: *
Disallow: /images/
如果你不想让搜索引擎抓取自己网站图片（既禁止图片抓取）
User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
如果你的网站有动态和静态两种网页，你只允许抓取静态页面（既禁止动态页面）
User-agent: *
Disallow: /*?*
如果你已经制作一个XML格式网站地图，想让搜索引擎抓取的话（既提交网站地图）
sitemap:网站地图的绝对地址，如：
sitemap:http://www.010wangzhanyouhua.com/sitemaps/sitemaps_1.xml
通过以上几种robots.txt写法，我们对robots.txt有了大概了解，我这里再对robots.txt各个代码解释下。
User-agent: * //规定搜索引擎名称 *为所有搜索引擎
这里为大家扩招下知识
百度蜘蛛名字：baiduspider
谷歌蜘蛛名字：googlebot
搜狗蜘蛛名字：Sogou+web+spider
Disallow:  //禁止搜索引擎抓取目录或网页
禁止抓取目录
Disallow: /images/
禁止抓取网页
Disallow: /test/test.html  //禁止抓取test.html网页
Allow:   //允许搜索引擎抓取目录和网页
一般设成Allow: / 就可以了，但切记不要和Disallow混用，否则有错误。
在研究完robots.txt写法后，我们还得学会创建robots.txt文件，方法很简单，在桌面上新建一个文本，把代码复制进去，然后重命名为“robots.txt”上传到根目录下，如本站的
http://www.010wangzhanyouhua.com/robots.txt
学会robots.txt写法，你将和搜索引擎进行一场有趣对话。

如果你对这个感兴趣的话欢迎访问[url=http://www.jisuanjixuexiao.com]我们的网站[/url]!!

主题：Robots.txt写法大全

回复列表（共1个回复）

我来回复

程序员工具箱 new

代码片段

本版新帖

主题：Robots.txt写法大全

回复列表 （共1个回复）

我来回复

程序员工具箱 new

代码片段

本版新帖

回复列表（共1个回复）