当前位置：移动技术网 > IT编程>脚本编程>Python > python爬虫爬取豆瓣top排行图片

python爬虫爬取豆瓣top排行图片

2020年07月03日 | 移动技术网IT编程 | 我要评论

爬虫是什么?

“网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。”(就是获取信息)

xPath的常用路径表达式

nodename（节点名称）：表示选择该节点的所有子节点
“/”：表示选择根节点
“//”：表示选择任意位置的某个节点
“@”：表示选择某个属性

requests库常用方法

图片转至链接link
在这里插入图片描述
图片转至链接:link

爬虫的步骤

1.目标url 网站
2.发送请求
3.解析数据
4.保存数据

所以把步骤搞明白那么爬虫就不会那么的复杂了

在这里插入图片描述

import requests
from lxml import etree

url='https://movie.douban.com/chart'
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'}
#发送请求
data = requests.get(url,headers=headers).content.decode()
#解析数据
html=etree.HTML(data)
n=1
#获取图片地址
novel_url_list=html.xpath('//div[@id="content"]//a[@class="nbg"]/img/@src')
#保存图片
for novel_url in novel_url_list:

    response = requests.get(novel_url,headers=headers)
    print('第%d个图片打印成功'%n)
    n=n+1
    #保存的名字
    file_name = novel_url.split('/')[-1]
  
    with open(file_name,'wb')as f:
        f.write(response.content)

在这里插入图片描述

总结
不忘初心，方得始终.努力一定能成功,多敲多练才是真理.

本文地址：https://blog.csdn.net/weixin_45859193/article/details/107064009

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

英语口语365之每日二十个英语单词

2020/08/08每日二十个英语单词transfer molding 传递模塑法，连续自动送进成型transf... [阅读全文]
MFC屏蔽系统默认信号问题

BOOL TubeFeatureWnd::PreTranslateMessage(MSG* pMsg){if (... [阅读全文]
Arduino编程ESP8266下载报错错误：warning: espcomm_sync failed error: espcomm_open failed error: espcomm_uplo

Arduino IDE 编程ESP8266上传程序是出现报错：“warning: espcomm_sync fa... [阅读全文]
【内存泄漏】- 5. 使用Valgrind工具检测Python内存泄漏

1. 什么是valgrind Valgrind是一套Linux下，开放源代码（GPL V2）的仿真调试工具的... [阅读全文]
Python函数递归调用实现原理实例解析

函数的递归调用:是函数嵌套调用的一种特殊形式具体是指:在调用一个函数的过程中又直接或间接地调用到了本身# 直接调用本身def func(): print('我... [阅读全文]
python+pygame实现坦克大战小游戏的示例代码(可以自定义子弹速度)

python+pygame实现坦克大战小游戏—可以自定义子弹速度：运行环境–python3.7、pycharm；源码需要请：点赞留言邮箱；正常版子弹... [阅读全文]
Python 代码调试技巧示例代码

debug 对于任何开发人员都是一项非常重要的技能，它能够帮助我们准确的定位错误，发现程序中的 bug。python 提供了一系列 debug 的工具和包，可供... [阅读全文]
python中通过pip安装库文件时出现“EnvironmentError: [WinError 5] 拒绝访问”的问题及解决方案

python中通过pip安装库文件时出现“environmenterror: [winerror 5] 拒绝访问”我遇到的问题：电脑上已经有了一个numpy==... [阅读全文]
使用Python pip怎么升级pip

pip是一个python的包管理工具，实际上它也可以被看待为是一个包，pip相当于linux上的yum，对python的开发者来说相当方便。我们再也无需去焦头烂... [阅读全文]
Python3如何使用多线程升程序运行速度

优化前后新老代码如下：from git_tools.git_tool import get_collect_projects, qqnews_gitfrom t... [阅读全文]