什么是robots文件？robots的作用、存放位置、格式及用法详解-深圳市智码联动科技有限公司

什么是robots文件？robots的作用、存放位置、格式及用法详解

发布时间:2023-04-26 19:23:01 作者:智码联动浏览量：196

Robots文件是一种排除爬虫抓取的规则文件，它可以指定搜索引擎爬虫抓取网站哪些内容，哪些内容不允许抓取，以及抓取的频率等。下面就robots文件的作用、存放位置、格式及用法给大家详细介绍。

一、robots文件的作用

1、防止搜索引擎抓取网站的敏感页面，比如支付页面等；

2、控制搜索引擎抓取网站的频率，比如每天抓取网站的次数；

什么是robots文件？robots的作用、存放位置、格式及用法详解

3、防止搜索引擎抓取网站的重复页面，比如某个页面的不同参数URL；

4、指定抓取网站的哪个目录；

5、指定抓取网站的哪些文件，比如图片、pdf文件等；

6、控制搜索引擎抓取网站的哪些链接，比如友情链接等。

什么是robots文件？robots的作用、存放位置、格式及用法详解

二、robots文件的存放位置

robots文件要放在网站的根目录，文件名称一般为“robots.txt”，放在根目录以外的位置，搜索引擎是不会读取的。

三、robots文件的格式

Robots文件的格式比较简单，是一种文本文件，可以使用记事本编辑。文件的格式分为两个部分，一是用户代理，一是指令。

什么是robots文件？robots的作用、存放位置、格式及用法详解

四、robots文件的用法

1、User-agent：Useragent是指定爬虫的名字，一般用“*”代表所有的爬虫都受到指令的影响，也可以指定某些特定的爬虫，多个爬虫用“|”隔开。

2、Disallow：Disallow是指定不允许爬虫抓取的URL，一般用“/”代表禁止所有的爬虫，多个URL用“，”隔开。

3、Allow：Allow是指定允许爬虫抓取的URL，一般用“/”代表允许所有的爬虫，多个URL用“，”隔开。

4、Sitemap：Sitemap是指定网站的sitemap文件的位置。

5、Crawl-delay：Crawl-delay是指定抓取间隔，单位是秒，比如10表示抓取间隔为10秒。

6、Host：Host是指定爬虫抓取的主机地址，可以指定一个或多个主机地址，多个主机地址用“，”隔开。

总之，robots文件是一种排除爬虫抓取的规则文件，它可以指定搜索引擎爬虫抓取网站哪些内容，哪些内容不允许抓取，以及抓取的频率等，它的存放位置是网站的根目录，文件名称一般为“robots.txt”，放在根目录以外的位置，搜索引擎是不会读取的；文件的格式分为两个部分，一是用户代理，一是指令，指令有User-agent、Disallow、Allow、Sitemap、Crawl-delay、Host等；robots文件可以防止搜索引擎抓取网站的敏感页面、控制搜索引擎抓取网站的频率、防止搜索引擎抓取网站的重复页面、指定抓取网站的哪个目录、指定抓取网站的哪些文件，以及控制搜索引擎抓取网站的哪些链接，可以有效提升网站的搜索引擎优化效果。

TAG:

上一篇：从搜索引擎角度探索网站优化推广方法下一篇：如何进行SEO，SEO应该注意什么？

猜你喜欢