B2B类型的网站在建成之后,都会进行网站的SEO优化排名,但是有时候我们会发现,百度会收录一些网站上连七八糟的内容,所以为了避免百度收录一些影响企业形象的页面,同时也避免一些无关页面在被蜘蛛爬取时占用服务器资源(蜘蛛爬取也会占用服务器资源),影响网站的评分,所以合理的Robots.txt 配置是很有必要的。

Robots.txt文件的主要作用是给蜘蛛爬取网站的准入规则,一般情况下,蜘蛛也是依据这个规则对网站进行抓取的,下面我们来看下Robots.txt文件该怎么配置吧。

首先,创建一个robots.txt放于网站根目录

1、对蜘蛛进行控制,我们使用User-agent:标识进行配置, 通过这方法,我们可以对不同的蜘蛛设置不同的规则,也可以对所有的蜘蛛设置相同的规则

对不同的蜘蛛设置不同的规则

User-agent: BaiduSpider

Allow: / 允许百度蜘蛛抓取网站所有页面
Disallow: /directory/ 不允许百度蜘蛛抓取directiry下的所有页面

User-agent: Googlebot

Allow:/        允许Google蜘蛛抓取网站所有页面
Disallow:/directory-baidu/ 不允许google蜘蛛抓取directory-baidu下的所有页面

2、设置哪些页面可以被抓取,哪些页面不可以被抓取

Allow:(这里有一个空格)    允许被抓取的页面

Disallow: 不允许被抓取的页面

3、通配符的使用

“*” 要匹配连续字符

Disallow:/private*/
Disallow:/private*.jpg 拦截private_aaa.jpg以及private_aaa.jpg.zip

“$”以指定字符串结尾

Disallow: /*.gif$ 拦截指定文件类型
Disallow:/*private/$ 拦截所以以 private/结尾的分类目录