欢迎访问深圳市智码联动科技有限公司官方网站!
全国服务热线: 152 1949 0811

您当前所在位置: 首页>>新闻资讯>>seo入门

什么是robots文件?robots的作用、存放位置、格式及用法详解
发布时间:2023-04-26 19:23:01 作者:智码联动 浏览量:196

Robots文件是一种排除爬虫抓取的规则文件,它可以指定搜索引擎爬虫抓取网站哪些内容,哪些内容不允许抓取,以及抓取的频率等。下面就robots文件的作用、存放位置、格式及用法给大家详细介绍。

一、robots文件的作用

1、防止搜索引擎抓取网站的敏感页面,比如支付页面等;

2、控制搜索引擎抓取网站的频率,比如每天抓取网站的次数;

什么是robots文件?robots的作用、存放位置、格式及用法详解

3、防止搜索引擎抓取网站的重复页面,比如某个页面的不同参数URL;

4、指定抓取网站的哪个目录;

5、指定抓取网站的哪些文件,比如图片、pdf文件等;

6、控制搜索引擎抓取网站的哪些链接,比如友情链接等。

什么是robots文件?robots的作用、存放位置、格式及用法详解

二、robots文件的存放位置

robots文件要放在网站的根目录,文件名称一般为“robots.txt”,放在根目录以外的位置,搜索引擎是不会读取的。

三、robots文件的格式

Robots文件的格式比较简单,是一种文本文件,可以使用记事本编辑。文件的格式分为两个部分,一是用户代理,一是指令。

什么是robots文件?robots的作用、存放位置、格式及用法详解

四、robots文件的用法

1、User-agent:Useragent是指定爬虫的名字,一般用“*”代表所有的爬虫都受到指令的影响,也可以指定某些特定的爬虫,多个爬虫用“|”隔开。

2、Disallow:Disallow是指定不允许爬虫抓取的URL,一般用“/”代表禁止所有的爬虫,多个URL用“,”隔开。

3、Allow:Allow是指定允许爬虫抓取的URL,一般用“/”代表允许所有的爬虫,多个URL用“,”隔开。

4、Sitemap:Sitemap是指定网站的sitemap文件的位置。

5、Crawl-delay:Crawl-delay是指定抓取间隔,单位是秒,比如10表示抓取间隔为10秒。

6、Host:Host是指定爬虫抓取的主机地址,可以指定一个或多个主机地址,多个主机地址用“,”隔开。

总之,robots文件是一种排除爬虫抓取的规则文件,它可以指定搜索引擎爬虫抓取网站哪些内容,哪些内容不允许抓取,以及抓取的频率等,它的存放位置是网站的根目录,文件名称一般为“robots.txt”,放在根目录以外的位置,搜索引擎是不会读取的;文件的格式分为两个部分,一是用户代理,一是指令,指令有User-agent、Disallow、Allow、Sitemap、Crawl-delay、Host等;robots文件可以防止搜索引擎抓取网站的敏感页面、控制搜索引擎抓取网站的频率、防止搜索引擎抓取网站的重复页面、指定抓取网站的哪个目录、指定抓取网站的哪些文件,以及控制搜索引擎抓取网站的哪些链接,可以有效提升网站的搜索引擎优化效果。


TAG:
相关推荐
返回顶部小火箭