当前位置：移动技术网 > IT编程>脚本编程>Python > 爬虫-爬取豆瓣短评

爬虫-爬取豆瓣短评

2020年07月26日 | 移动技术网IT编程 | 我要评论

爬虫-爬取豆瓣短评

啥是爬虫？

按照一定的规则，自动地抓取互联网信息的程序。

为啥要用爬虫？

可以利用爬虫自动地采集互联网中的信息，采集回来后进行相应的存储或处理，在需要检索某些信息的时候，只需在采集回来的信息中进行检索

怎么用爬虫？

爬虫分为三个部分

1、解析网页

2、提取信息

3、保存信息

接下来将会用requests库来实现一个简单地爬虫

爬取豆瓣短评

首先我们需要安装requests库

我们可以cmd指令进入python解释器，然后输入pip install requests然后等待安装。

同样我们也可以打开pycharm在Terminal中输入相同的指令

在这里插入图片描述

安装比较慢的同学可以修改下载源也可以下载

链接：解决pip下载慢
提取码：9b7d
来解决

安装好了我们就可以来使用requests库的功能了

首先我们访问豆瓣250选择自己感兴趣的电影这里我们选择了《肖申克的救赎》

在这里插入图片描述

打开全部短评
在这里插入图片描述

这样我们就得到了短评的链接我们先看第二页

https://movie.douban.com/subject/1292052/commentsstart=20&limit=20&sort=new_score&status=P

一、请求网页

拿到网址后我们就可以利用requests库的get方法来请求网页

url = "https://movie.douban.com/subject/1292052/comments?start=20&limit=20&sort=new_score&status=P"
response = requests.get(url)
print(response)

但是这样我们是访问不到的，因为站点知道了我们不是“正常人”。我们的应对方案就是尽可能的模拟浏览器的功能或行为。既然浏览器有请求头的发送，那么我们的程序自然也应该加上。这时候我们就要用到get中的请求头功能了。

headers = {'User-Agent':
               			'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 Edg/84.0.522.40'} 
               			 # user-Agent 可以自己设置也可以自己去网页network中查找

我们尝试再次访问

response = requests.get(url, headers=headers)
print(response, type(response))
----------------------
<Response [200]> <class 'requests.models.Response'>

请求发出后，Requests 会基于 HTTP 头部对响应的编码作出有根据的推测。当你访问 response.text 之时，Requests 会使用其推测的文本编码。你可以找出 Requests 使用了什么编码，并且能够使用 r.encoding 属性来改变它：如果你改变了编码，每当你访问 response.text，Request 都将会使用 response.encoding 的新值。HTML 页面是可以设置编码信息的，可以查看该编码信息，然后设置 response.encoding 为相应的编码。这样就能使用正确的编码解析 response.text 了。而网页的编码可以在浏览器中去查看。

print(response.text)  # 网页源码
print(response.encoding)  # utf-8

我们得到了网页源码response.text那么我们就可以进行下一步我们先将第一步包装成函数

def getHtml(url):
    response = requests.get(url, headers=headers)
    htmldata = response.text
    return htmldata

二、解析网页

我们得到了文本（text）模式的网页源码，那么我们就可以用正则表达式来解析它来提取我们要的数据

import re模块在这里我们主要用四个内容

.	匹配除换行符 \n 之外的任何单字符。要匹配 . ，请使用 . 。
*	匹配前面的子表达式零次或多次。要匹配 * 字符，请使用 *。
?	匹配前面的子表达式零次或一次，或指明一个非贪婪限定符。要匹配 ? 字符，请使用 ?。
( )	标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符，请使用 ( 和 )。

简单来说.*？就是匹配任意数量任意类型的字符（）就是问匹配到了吗？匹配到了就取出来…

在这里我们要选取的是短评在网页中他的一个代码格式是这样子的

<span class="short">关于希望最强有力的注释。</span>这是其中一条评论，他在span标签下两个> <之间，注意我们要匹配的一定是唯一的，不然会匹配到别的内容

comment = re.findall('<span class="short">(.*?)</span>', htmldata)  # findall查找全文
# 看网页源码我们看到评论都在这个格式里 所以findall能够全部匹配

同样我们也可以用正则得到名字

 <h1>肖申克的救赎 短评</h1>  # <h1>(.*?)</h1>

我们再用函数将第二步封装起来

# 提取信息 名字评论
def getComment(htmldata):
    movies_name = re.findall('<h1>(.*?)</h1>', htmldata)
    comment = re.findall('<span class="short">(.*?)</span>', htmldata)
    return movies_name,comment

三、保存数据

这个比较简单了

def save():
    with open(f"{str(movies_name)}.txt", "a", encoding="utf-8")as f:
        f.write("%s\n" % str(comment))

当然你也可以保存成别的格式

总结:

简单地一个爬虫程序就编好了
在这里插入图片描述

再来回答一下为什么取第二页，我们来对比下其他页

https://movie.douban.com/subject/1292052/comments?start=0&limit=20&sort=new_score&status=P # 第一页

https://movie.douban.com/subject/1292052/comments?start=20&limit=20&sort=new_score&status=P # 第二页

https://movie.douban.com/subject/1292052/comments?start=40&limit=20&sort=new_score&status=P # 第三页

我们发现他只是 start 那里数据不一样那我们可以通过修改数值来爬取多页吗？

完整代码奉上

import requests
import re


# 获取网页源码
def getHtml(url):
    response = requests.get(url, headers=headers)
    htmldata = response.text
    return htmldata


# 提取信息 名字评论
def getComment(htmldata):
    movies_name = re.findall('<h1>(.*?)</h1>', htmldata)
    comment = re.findall('<span class="short">(.*?)</span>', htmldata)
    return movies_name, comment


# 保存文件

def save():
    with open(f"{str(movies_name)}.txt", "a", encoding="utf-8")as f:
        f.write("%s\n" % str(comment))


headers = {
    'User-Agent1':
        'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 Edg/84.0.522.40'

}
for i in range(0, 10):
    movie_url = f"https://movie.douban.com/subject/1292052/comments?start={i * 20}&limit=20&sort=new_score&status=P"
    htmldata = getHtml(movie_url)
    movies_name, comment = getComment(htmldata)
    save()

这样我们就得到了前十页的数据了
在这里插入图片描述

本文地址：https://blog.csdn.net/A1L__/article/details/107572276

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

从C语言中读取Python 类文件对象

问题你要写c扩展来读取来自任何python类文件对象中的数据（比如普通文件、stringio对象等）。解决方案要读取一个类文件对象的数据，你需要重复调用 rea... [阅读全文]
Python3爬虫关于代理池的维护详解

我们在上一节了解了代理的设置方法，利用代理我们可以解决目标网站封 ip 的问题，而在网上又有大量公开的免费代理，其中有一部分可以拿来使用，或者我们也可以购买付费... [阅读全文]
Python如何对齐字符串

问题你想通过某种对齐方式来格式化字符串解决方案对于基本的字符串对齐操作，可以使用字符串的 ljust() , rjust() 和 center() 方法。比如：... [阅读全文]
python实现从无序的链表中删除重复项

python实现从无序的链表中删除重复项题目描述:给定一个没有排序的链表，去掉其重复项，并保留原顺序，例如链表... [阅读全文]
python实现Canny与Hough算法

任务说明：编写一个钱币定位系统，其不仅能够检测出输入图像中各个钱币的边缘，同时，还能给出各个钱币的圆心坐标与半径... [阅读全文]
DP-LeetCode221. 最大正方形

1、题目描述https://leetcode-cn.com/problems/maximal-square/在一... [阅读全文]
听课笔记--Python数据分析--Numpy基础及基本应用

'''@Author: Liang@LastEditors: Liang@Date: 2020-07-26 19... [阅读全文]
评价类模型——Tposis法

Tposis法学习笔记适用的范围操作方法第一步 > 将原始矩阵正向化第二步>正向化矩阵标准化第三步&... [阅读全文]
python的platform模块的使用

platform是用来获取操作系统的信息的模块，具体见文档[root@VM_0_9_centos ~]# pyt... [阅读全文]
Python-定时任务APScheduler中两种调度器的区别

概述两种调度器BackgroundScheduler和BlockingScheduler的区别举例说明APSch... [阅读全文]

网友评论


验证码：

爬虫-爬取豆瓣短评

2020年07月26日 | 移动技术网IT编程 | 我要评论

爬虫-爬取豆瓣短评

啥是爬虫？

为啥要用爬虫？

怎么用爬虫？

爬虫分为三个部分

1、解析网页

2、提取信息

3、保存信息

爬取豆瓣短评

一、请求网页

二、解析网页

三、保存数据

总结:

您可能感兴趣的文章:

相关文章:

网友评论