B2B类型的网站在建成之后,都会进行网站的SEO优化排名,但是有时候我们会发现,百度会收录一些网站上连七八糟的内容,所以为了避免百度收录一些影响企业形象的页面,同时也避免一些无关页面在被蜘蛛爬取时占用服务器资源(蜘蛛爬取也会占用服务器资源),影响网站的评分,所以合理的Robots.txt 配置是很有必要的。
Robots.txt文件的主要作用是给蜘蛛爬取网站的准入规则,一般情况下,蜘蛛也是依据这个规则对网站进行抓取的,下面我们来看下Robots.txt文件该怎么配置吧。
首先,创建一个robots.txt放于网站根目录
1、对蜘蛛进行控制,我们使用User-agent:标识进行配置, 通过这方法,我们可以对不同的蜘蛛设置不同的规则,也可以对所有的蜘蛛设置相同的规则
对不同的蜘蛛设置不同的规则
User-agent: BaiduSpider
Allow: / 允许百度蜘蛛抓取网站所有页面
Disallow: /directory/ 不允许百度蜘蛛抓取directiry下的所有页面
User-agent: Googlebot
Allow:/ 允许Google蜘蛛抓取网站所有页面
Disallow:/directory-baidu/ 不允许google蜘蛛抓取directory-baidu下的所有页面
2、设置哪些页面可以被抓取,哪些页面不可以被抓取
Allow:(这里有一个空格) 允许被抓取的页面
Disallow: 不允许被抓取的页面
3、通配符的使用
“*” 要匹配连续字符
Disallow:/private*/
Disallow:/private*.jpg 拦截private_aaa.jpg以及private_aaa.jpg.zip
“$”以指定字符串结尾
Disallow: /*.gif$ 拦截指定文件类型
Disallow:/*private/$ 拦截所以以 private/结尾的分类目录
近期评论