仙桃皇城音乐会所,杨璐璐滚出中国,观海听涛bbs
网站开发者对于网络爬虫的规范的公告,你可以不遵守可能存在法律风险
,但尽量去遵守
robots协议:在网页的根目录+robots.txt
robots协议的基本语法:
#注释,*代表所有,/代表根目录 user-agent:* #user-agent代表来源 allow:/ #代表运行爬取的内容 disallow:/ #代表不可爬取的目录,如果是/后面没有写内容,便是其对应的访问者不可爬取所有内容
并不是所有网站都有robots协议
如果一个网站不提供robots协议,是说明这个网站对应所有爬虫没有限制
类人行为
可以不参考robots协议,比如我们写的小程序访问量很少,内容也少但是内容不能用于商业用途
总的来说请准守robots协议
如对本文有疑问,请在下面进行留言讨论,广大热心网友会与你互动!! 点击进行留言回复
Python爬虫:Request Payload和Form Data的简单区别说明
浅谈Python中threading join和setDaemon用法及区别说明
Python3-异步进程回调函数(callback())介绍
python继承threading.Thread实现有返回值的子类实例
Python中使用threading.Event协调线程的运行详解
网友评论