当前位置：移动技术网 > IT编程>脚本编程>Python > day01 爬虫基本原理以及requests请求库

day01 爬虫基本原理以及requests请求库

2019年07月01日 | 移动技术网IT编程 | 我要评论

攀岩图片,久久听战歌,猕猴桃种植

一、爬虫基本原理
    1.什么是爬虫
        爬虫就是爬取数据
    2.什么是互联网
        有一堆网络设备，把一台台的计算机互联到一起称为互联网
    3.互联网建立的目的
        数据的传递与数据的共享
    4.什么是数据
        例如：
           电商平台的商品信息
           链家，自如租房平台的房源信息
           ...
           12306，票务信息
    5.什么是上网
        普通用户：
            打开浏览器
            ——>输入网址
            ——>往目标主机发送请求
            ——>返回响应数据
            ——>把数据渲染到浏览器中
        爬虫程序：
            模拟浏览器
            ——>往目标主机发送请求
            ——>返回响应数据
            ——>解析并提取有价值的数据
            ——>保存数据（文件写入本地、持久化到数据库中）

    6.爬虫的全过程
        1.发送请求（请求库：requests/selenium)
        2.获取响应
        3.解析数据（解析库：beautifulsoup4)
        4.保存数据(存储库：文件保存/mongodb)


    总结：我们可以把互联网中的数据比喻成一座宝藏，爬虫其实就是在挖宝藏

二、requests请求库
   1.安装与使用
       pip3 install requests
   2.分析请求流程（模拟浏览器）
        -百度：
            1.请求url
            2.请求方式
            3.响应状态码

具体事例如下

'''
爬校花网视频：
一、请求rul
http://www.xiaohaur.com/v/
二、请求方式
    get
三、请求头信息
user-agent:用户代理
'''

 1 import time
 2 import requests
 3 #爬虫三部曲
 4 #1.发送请求
 5 def get_page(url):
 6     response = requests.get(url)
 7     return response
 8 # 2.解析数据
 9 import re
10 def parse_index(html):
11     # findall匹配所有
12     # re.findall('正则匹配规则','匹配文本','匹配模式')
13     # re.s:对所有文本进行搜索匹配
14     detail_urls = re.findall(
15         '<div class="items"><a class="imglink" href="(.*?)"',
16         html,re.s
17     )
18     return detail_urls
19 # 解析详情页
20 def parse_detail(html):
21     movie_url = re.findall('<source src="(.*?)">',html,re.s)
22     #print(movie_url)
23     if movie_url:
24         return movie_url[0]
25 # 3.保存数据
26 import uuid
27 #uuid.uuid4()根据时间戳生成一段世界上唯一的字符串
28 def save_video(content):
29     with open(f'{uuid.uuid4()}.mp4','wb')as f:
30         f.write(content)
31         print('视频下载完毕')
32 # main + 回车键
33 # 测试用例
34 if __name__ == '__main__':
35     for line in range(6):
36         url=f'http://www.xiaohuar.com/list-3-{line}.html'
37         #发送请求
38         response = requests.get(url)
39         #print(response)
40         # # 返回响应状态码
41         # print(response.status_code)
42         # # 返回响应文本
43         # print(response.text)
44 
45         #解析主页页面
46         detail_urls = parse_index(response.text)
47 
48         #循环遍历详情页url
49         for detail_url in detail_urls:
50             # print(detail_url)
51             # 往每一个详情页发送请求
52             detail_res = get_page(detail_url)
53             #print(response.text)
54             #解析详情页获取视频url
55             movie_url = parse_detail(detail_res.text)
56             # 判断视频url存在则打印
57             if movie_url:
58                 print(movie_url)
59 
60                 # 往视频url发送请求获取视频二进制流
61                 movie_res = get_page(movie_url)
62 
63                 # 把视频的二进制流传给save_video函数保存到本地
64                 save_video(movie_res.content)

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

Python爬虫:Request Payload和Form Data的简单区别说明

request payload 和 form data 请求头上的参数差别在于：content-typeform datapost表单请求代码示例headers... [阅读全文]
如何基于python实现不邻接植花

有 n 个花园，按从 1 到 n 标记。在每个花园中，你打算种下四种花之一。paths[i] = [x, y] 描述了花园 x 到花园 y 的双向路径。另外，没... [阅读全文]
构建高效的python requests长连接池详解

前文：最近在搞全网的cdn刷新系统，在性能调优时遇到了requests长连接的一个问题，以前关注过长连接太多造成浪费的问题，但因为系统都是分布式扩展的，针对这种... [阅读全文]
python中threading开启关闭线程操作

在python中启动和关闭线程：首先导入threadingimport threading然后定义一个方法def serial_read():......然后定... [阅读全文]
浅谈Python中threading join和setDaemon用法及区别说明

python多线程编程时，经常会用到join()和setdaemon()方法，今天特地研究了一下两者的区别。1、join ()方法：主线程a中，创建了子线程b，... [阅读全文]
Python3-异步进程回调函数(callback())介绍

废话不多说，大家之家看代码吧！#异步'''举例：你喊你朋友吃饭，你朋友正忙，如果你一直在那等他，等你朋友忙完了，你们一块去。--同步调用你喊你朋友吃饭，你朋友正... [阅读全文]
python继承threading.Thread实现有返回值的子类实例

继承与threading.thread实现有返回值的子类mythread，废话不多说，大家直接看代码import threadingclass mythread... [阅读全文]
浅谈Python3多线程之间的执行顺序问题

一个多线程的题：定义三个线程id分别为abc，每个线程打印10遍自己的线程id，按abcabc……的顺序进行打印输出。我的解法：from threading i... [阅读全文]
Python中使用threading.Event协调线程的运行详解

threading.event机制类似于一个线程向其它多个线程发号施令的模式，其它线程都会持有一个threading.event的对象，这些线程都会等待这个事件... [阅读全文]
python 实现两个线程交替执行

我就废话不多说，直接看代码吧！import threadingimport timedef a(): while true: lockb.acquire... [阅读全文]

网友评论


验证码：

day01 爬虫基本原理以及requests请求库

2019年07月01日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论