“网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。”(就是获取信息)
nodename(节点名称):表示选择该节点的所有子节点
“/”:表示选择根节点
“//”:表示选择任意位置的某个节点
“@”: 表示选择某个属性
1.目标url 网站
2.发送请求
3.解析数据
4.保存数据
所以把步骤搞明白那么爬虫就不会那么的复杂了
import requests
from lxml import etree
url='https://movie.douban.com/chart'
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'}
#发送请求
data = requests.get(url,headers=headers).content.decode()
#解析数据
html=etree.HTML(data)
n=1
#获取图片地址
novel_url_list=html.xpath('//div[@id="content"]//a[@class="nbg"]/img/@src')
#保存图片
for novel_url in novel_url_list:
response = requests.get(novel_url,headers=headers)
print('第%d个图片打印成功'%n)
n=n+1
#保存的名字
file_name = novel_url.split('/')[-1]
with open(file_name,'wb')as f:
f.write(response.content)
总结
不忘初心,方得始终.努力一定能成功,多敲多练才是真理.
本文地址:https://blog.csdn.net/weixin_45859193/article/details/107064009
如对本文有疑问, 点击进行留言回复!!
Arduino编程ESP8266下载报错错误:warning: espcomm_sync failed error: espcomm_open failed error: espcomm_uplo
【内存泄漏】- 5. 使用Valgrind工具检测Python内存泄漏
python+pygame实现坦克大战小游戏的示例代码(可以自定义子弹速度)
python中通过pip安装库文件时出现“EnvironmentError: [WinError 5] 拒绝访问”的问题及解决方案
网友评论