当前位置：移动技术网 > IT编程>脚本编程>Python > Python爬虫学习==>第十一章：分析Ajax请求-抓取今日头条信息

Python爬虫学习==>第十一章：分析Ajax请求-抓取今日头条信息

2018年04月11日 | 移动技术网IT编程 | 我要评论

郭德纲单身男女,罗素·霍尔特,愚人节作文

学习目的：

　　解决AJAX请求的爬虫，网页解析库的学习，MongoDB的简单应用

正式步骤

Step1：流程分析

抓取单页内容：利用requests请求目标站点，得到单个页面的html代码，返回结果；
抓取页面详情内容：解析返回结果，得到详情页的链接，并进一步抓取详情页的信息；
下载图片并保存数据库：将图片下载到本地，把页面信息及图片url保存至MongoDB；
开启循环及多线程：对多页面内容遍历，开启多线程并提高抓取效率。

Step2：实例分析

1. 打开今日头条搜索页，搜索“中超”，查看页面的请求方法为：GET

2. 创建一个Python文件：spider_ajax.py

3.网站url信息获取

4. 打印抓取的文章超链接和抓取的html内容

# -*-  coding:utf-8 -*-
import json
from urllib.parse import urlencode
from requests.exceptions import RequestException

import requests
def get_page_html(offset,keyword):
    data = {
        'offset':offset,
        'format':'json',
        'keyword':keyword,
        'autoload':'true',
        'count':'20',
        'cur_tab':1
    }
#   urlencode把字典对象自动转化为url参数，
#   快速导入，请选中以后，按alt+enter
    url = 'https://www.toutiao.com/search_content/?' + urlencode(data)
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        print('请求索引页失败')
        return None

def parse_page_index(html):
#因为html打印出来是json字符串格式，json.loads作用是将已编码的 JSON 字符串解码为 Python 对象
# json.dumps作用是将 Python 对象编码成 JSON 字符串
#参考http://www.runoob.com/python/python-json.html
    data = json.loads(html)
    if data and 'data' in data.keys():
        for item in data.get('data'):
            yield item.get('article_url')

def main():
    html = get_page_html(0,'中超')
#打印抓取的文章详细内容的url
    for url in parse_page_index(html):
        print(url)
#打印获取页面内容
    print(html)

if __name__ == '__main__':
    main()

后面的内容因为爬虫被封，很多信息获取不到，暂时不会，以后再补全这节内容

学习总结：

　　想爬取商业的门户网站，感觉一脸懵逼

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

Python爬虫:Request Payload和Form Data的简单区别说明

request payload 和 form data 请求头上的参数差别在于：content-typeform datapost表单请求代码示例headers... [阅读全文]
如何基于python实现不邻接植花

有 n 个花园，按从 1 到 n 标记。在每个花园中，你打算种下四种花之一。paths[i] = [x, y] 描述了花园 x 到花园 y 的双向路径。另外，没... [阅读全文]
构建高效的python requests长连接池详解

前文：最近在搞全网的cdn刷新系统，在性能调优时遇到了requests长连接的一个问题，以前关注过长连接太多造成浪费的问题，但因为系统都是分布式扩展的，针对这种... [阅读全文]
python中threading开启关闭线程操作

在python中启动和关闭线程：首先导入threadingimport threading然后定义一个方法def serial_read():......然后定... [阅读全文]
浅谈Python中threading join和setDaemon用法及区别说明

python多线程编程时，经常会用到join()和setdaemon()方法，今天特地研究了一下两者的区别。1、join ()方法：主线程a中，创建了子线程b，... [阅读全文]
Python3-异步进程回调函数(callback())介绍

废话不多说，大家之家看代码吧！#异步'''举例：你喊你朋友吃饭，你朋友正忙，如果你一直在那等他，等你朋友忙完了，你们一块去。--同步调用你喊你朋友吃饭，你朋友正... [阅读全文]
python继承threading.Thread实现有返回值的子类实例

继承与threading.thread实现有返回值的子类mythread，废话不多说，大家直接看代码import threadingclass mythread... [阅读全文]
浅谈Python3多线程之间的执行顺序问题

一个多线程的题：定义三个线程id分别为abc，每个线程打印10遍自己的线程id，按abcabc……的顺序进行打印输出。我的解法：from threading i... [阅读全文]
Python中使用threading.Event协调线程的运行详解

threading.event机制类似于一个线程向其它多个线程发号施令的模式，其它线程都会持有一个threading.event的对象，这些线程都会等待这个事件... [阅读全文]
python 实现两个线程交替执行

我就废话不多说，直接看代码吧！import threadingimport timedef a(): while true: lockb.acquire... [阅读全文]

网友评论


验证码：

Python爬虫学习==>第十一章：分析Ajax请求-抓取今日头条信息

2018年04月11日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论