robots协议文件是什么?robots.txt写法和检测方法!

这里是大仙的seo优化教程中的robots文件讲解,本文主要介绍robots协议文件是什么?robots.txt写法和检测方法!

本文目录:

1.robots文件是什么意思
2.robots协议写法
3.robots文件检测
4.robots文件注意事项
4.1.如何查看网站的robots文件
4.2.如何知道robots文件生效
4.3.网站地图是否有必要放入robots文件

一、robots文件是什么意思?

“robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。”——百度百科

robots是一个协议文件,格式是txt,主要面对的是搜索引擎爬虫和网站之间,爬虫通过robots文件可以知道,网站哪些文件禁止抓取,哪些文件可以抓取。

并且爬虫在抓取网站的时候,第一个访问的就是robots.txt文件。

二、robots协议写法

在robots文件中,主要是了解3个单词含义,分别是: User-Agent(代理)、Disallow(不允许)、Allow(允许)。

robots协议标准写法如下:

User-agent: *
Disallow: /CSS/
Disallow: /js/

如果你想禁止所有css和js文件被抓取,就使用 “*” 表示。

如果你是想要特意允许抓取某个文件,可以这样写:

User-agent: *
Disallow: /css/
Disallow: /js/

Allow:/news/

这样就是允许抓取news栏目文件。

只允许百度蜘蛛抓取,禁止Google蜘蛛抓取:

User-agent: baiduspider
Allow: /

User-agent: googlebot
Disallow: /

常用的robots文件协议写法以上这些就够用了,还想了解可以自己百度学习。

三、robots文件检测

进入百度站长工具,在左侧导航栏里找到robots,点击检测更新,如图:

 robots检测
robots检测

检测robots文件无误, 说明robots文件协议生效。

检测robots文件
检测robots文件

四、robots文件注意事项

4.1、robots文件的格式和位置

在编辑好robots文件之后,应该保存为txt格式,命名为robots.txt;并将它上传到网站的根目录,不要放在任何其他的二级目录里。

4.2、如何查看网站的robots文件

在网站后面输入/robots.txt就可以看到了,如图:

robots文件
robots文件

4.3、网站地图是否有必要放入robots文件

很多人都在纠结网站地图是否有必要放入robots文件里,这里大仙认为,当然是有必要的。

上面说了,搜索引擎爬虫在抓取网站的时候,最先看的就是robots文件,那么我们将网站地图也放在这里面,不就可以优先抓取了嘛。

具体做法是在最底部添加以下代码:

sitemap:https://www.daxianseo.cn/sitemap.xml
//改为你的地图链接

4.4、如何知道robots文件生效

上面有提到,可以使用百度站长工具检测robots文件是否生效,会有提示的。

赞赏

微信赞赏支付宝赞赏

相关文章