Robots文件是一种排除爬虫抓取的规则文件,它可以指定搜索引擎爬虫抓取网站哪些内容,哪些内容不允许抓取,以及抓取的频率等。下面就robots文件的作用、存放位置、格式及用法给大家详细介绍。
一、robots文件的作用
1、防止搜索引擎抓取网站的敏感页面,比如支付页面等;
2、控制搜索引擎抓取网站的频率,比如每天抓取网站的次数;
3、防止搜索引擎抓取网站的重复页面,比如某个页面的不同参数URL;
4、指定抓取网站的哪个目录;
5、指定抓取网站的哪些文件,比如图片、pdf文件等;
6、控制搜索引擎抓取网站的哪些链接,比如友情链接等。
二、robots文件的存放位置
robots文件要放在网站的根目录,文件名称一般为“robots.txt”,放在根目录以外的位置,搜索引擎是不会读取的。
三、robots文件的格式
Robots文件的格式比较简单,是一种文本文件,可以使用记事本编辑。文件的格式分为两个部分,一是用户代理,一是指令。
四、robots文件的用法
1、User-agent:Useragent是指定爬虫的名字,一般用“*”代表所有的爬虫都受到指令的影响,也可以指定某些特定的爬虫,多个爬虫用“|”隔开。
2、Disallow:Disallow是指定不允许爬虫抓取的URL,一般用“/”代表禁止所有的爬虫,多个URL用“,”隔开。
3、Allow:Allow是指定允许爬虫抓取的URL,一般用“/”代表允许所有的爬虫,多个URL用“,”隔开。
4、Sitemap:Sitemap是指定网站的sitemap文件的位置。
5、Crawl-delay:Crawl-delay是指定抓取间隔,单位是秒,比如10表示抓取间隔为10秒。
6、Host:Host是指定爬虫抓取的主机地址,可以指定一个或多个主机地址,多个主机地址用“,”隔开。
总之,robots文件是一种排除爬虫抓取的规则文件,它可以指定搜索引擎爬虫抓取网站哪些内容,哪些内容不允许抓取,以及抓取的频率等,它的存放位置是网站的根目录,文件名称一般为“robots.txt”,放在根目录以外的位置,搜索引擎是不会读取的;文件的格式分为两个部分,一是用户代理,一是指令,指令有User-agent、Disallow、Allow、Sitemap、Crawl-delay、Host等;robots文件可以防止搜索引擎抓取网站的敏感页面、控制搜索引擎抓取网站的频率、防止搜索引擎抓取网站的重复页面、指定抓取网站的哪个目录、指定抓取网站的哪些文件,以及控制搜索引擎抓取网站的哪些链接,可以有效提升网站的搜索引擎优化效果。