当前位置：移动技术网 > IT编程>网页制作>CSS > 如何使用robots禁止各大搜索引擎爬虫爬取网站

如何使用robots禁止各大搜索引擎爬虫爬取网站

2018年08月28日 | 移动技术网IT编程 | 我要评论

ps：由于公司网站配置的测试环境被百度爬虫抓取，干扰了线上正常环境的使用，刚好看到每次搜索淘宝时，都会有一句由于robots.txt文件存在限制指令无法提供内容描述，于是便去学习了一波

　　　1.原来一般来说搜索引擎爬取网站时都会，先读取下robots.txt文件，并依照里面所设定的规则去爬取网站（当然是指没用登录限制的页面）

　　　 2.下面我们就来说一说如何设置robots.txt文件

　　　　1）.robots.txt文件必须是放在文件根目录上：
　　　　　　例如：

　　　　　　　　├─admin

　　　　　　　　│ └─templates

　　　　　　　　│ header.tpl.php

　　　　　　　　│ task_add.tpl.php

　　　　　　　　│ └─robots.txt

　　　　 2 ) .首先常用的命令为

　　　　　　　　user-agent : 可以具体制定user-agent适用，即搜索引擎的名字，如果为 * 的话则为通配

　　　　　　　　disallow : 可以设定档案或文件夹，不允许被爬虫爬取，且为 / 时禁止爬取整站，也可以指定文件路径，不可爬取

　　　　　　　　crawl-delay: 延时爬取，防止爬虫短时间内爬取网站过快导致网站崩溃，则可以设置该延时

　　　　　　　　allow : 允许爬取指定页面，为 / 时爬取整站

　　　　3）搜索引擎别称

　　　　　　　　googlebot 谷歌

　　　　　　　　baiduspider 百度

　　　　　　　　等等

　　类似我们测试环境就设置了

　　　　user-agent : / 所有搜索引擎

　　　　disallow : / 禁止整站

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

前端学习笔记（4）之css背景属性合集

背景模块背景颜色background-color背景图：background-image：url（）；背景图平铺... [阅读全文]
PC端页面适配到移动端的问题(自动缩放PC端页面)

有时候在移动端开发页面的时候会发现因为移动端分辨率大导致页面视图被缩放的很小,这个时候就需要适配了话不多说直接贴... [阅读全文]
新版知乎x-zse-86加密破解分析

知乎x-zse-86加密破解新版知乎加密破解仅用于研究和学习使用新版本知乎使用headers中的x-zse-86... [阅读全文]
Flex 使用场景(二）

Flex 就是容器和轴。容器包括外层的父容器和内层的子容器，轴包括主轴和交叉轴，可以说 flex 布... [阅读全文]
css3实现边框圆角内凹效果

我们知道在边框的四个角实现圆角可以用 border-radius 实现, 如果在边框中心实现边框的内凹效果呢?效... [阅读全文]
【css】利用line-height实现垂直居中

替换元素与非替换元素<body> <div>hello</div> &l... [阅读全文]
通过鼠标使图片交替显示

伪类 after、before、hovercss代码使用的是预编译less，简单分享：就是固定框200*200，... [阅读全文]
荐微信小程序动态评分展示/五角星展示/半颗星展示/自定义长度展示

一、前言项目中遇到的评分相关的需求其实还挺多。之前也写过网页中关于评分功能实现的文档。这次，是基于微信小程序开发... [阅读全文]
【剑指 Offer 31】栈的压入、弹出序列

题目题目链接输入两个整数序列，第一个序列表示栈的压入顺序，请判断第二个序列是否为该栈的弹出顺序。假设压入栈的所有... [阅读全文]
前端学习笔记（3）之css文本属性合集

文本模块缩进text-intent间距 xxx-spacing控制文本大小写 text-transform文本... [阅读全文]

网友评论


验证码：

如何使用robots禁止各大搜索引擎爬虫爬取网站

2018年08月28日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论