robots.txt文件的作用及写法教程

作者 : 小优 本文共1036个字,预计阅读时间需要3分钟 发布时间: 2020-12-5 共463人阅读

说起 robots.txt 文件,很多网站的站长都非法的熟悉,尤其是一些专门研究SEO的从业者们。今天借助这篇博文,详细介绍一下 robots.txt 文件的作用与书写方法。robots.txt是一个写有 robots 协议的文件,它被放置于网站的根目录下,通过网址的形式就可以被访问到。别看它小,但它的作用可不小。

robots.txt文件的作用

1、用来告诉搜索引擎的蜘蛛哪些页面能被抓取,哪些页面不能被抓取;

2、屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;

3、屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;

4、设置网站地图连接,方便引导蜘蛛爬取页面。

Robots 协议中的几个参数

1、自定义搜索引擎

User-agent:来定义搜索引引擎的。如下面代码:

  1. Useragent: Baiduspider //百度蜘蛛
  2. Useragent: Googlebot //谷歌蜘蛛
  3. Useragent: * //*为通配符,表示所有的蜘蛛

注意:以上代码中,出现的汉字为注释说明,在实际的写法中,不能出现。

2、禁止抓取

Disallow:用来指示,要禁止抓取的目录,或文件。

  1. Disallow: /a/ //禁止抓去a目录下的任何文件
  2. Disallow: /b/c/ //禁止抓取b目录中c目录下的任何文件
  3. Disallow: index.html //禁止抓取 index.html 文件

可使用通配符来表示要禁止抓取的目录或文件

  1. Disallow: /*.css$ //禁止抓取所有CSS文件
  2. Disallow: /*.js$ //禁止抓取所有js文件
  3. Disallow: /*.php$ //禁止抓取所有php文件
  4. Disallow: /*?* //禁止抓取所有还有参数的文件,比如动态文件
  5. Disallow: / //禁止抓取所有目录以及文件

注意:*表示所有,$表示结尾

3、允许抓取

Allow:用来表示,允许要抓取的文件或者目录(一般是配合 Disallow 使用)

  1. Allow: / //允许抓取所有目录及文件
  2. Allow: /a/ //允许抓取a目录

robots.txt 写法举例

1、禁止百度抓取网站所有内容
  1. Useragent: Baiduspider
  2. Disallow:/
2、禁止所有搜索引擎访问
  1. Useragent: *
  2. Disallow: /
3、只允许某个搜索引擎访问,如下,只允许百度蜘蛛抓取
  1. Useragent: *
  2. Disallow: / Useragent: Baiduspider Disallow:
资源下载说明

请使用百度网盘下载资源,请不要在线解压!

1.人民币与U币汇率为1比10,即1元=10U币.有任何疑问请联系客服处理!
2.请记住本站永久网址发布页:http://uuscw.com
3.本站资源大多存储在云盘,如发现链接失效请在下方评论留言,作者看到后会第一时间更新补链。
4.关于解压密码错误或者资源损坏,请查看解压教程:[必看]关于资源教程及常见问题
5.本站大部分资源解压密码均为: uuscw.com 如密码有误,请查看原帖的资源说明!

免责申明:
1.如果服务器暂不能下载请稍后重试!总是不能下载,请联系客服,谢谢合作!
2.本站所有资源(包括写真、模板、素材、软件、字体等)仅供学习与参考,请勿用于商业用途。
3.本站所有素材来源于用户上传和网络,如有侵权请请联系客服处理!
4.本站资源售价只是赞助,收取费用仅维持本站的日常运营所需。
UU素材网 » robots.txt文件的作用及写法教程

常见问题FAQ

免费下载或者VIP会员专享资源能否直接商用?
本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
提示下载完但解压或打开不了?
最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可在对应资源底部留言,或 联络我们。

发表评论