当前位置：移动技术网 > IT编程>脚本编程>Shell > scrapy爬虫实战——抓取NBA吧的内容

scrapy爬虫实战——抓取NBA吧的内容

2020年07月12日 | 移动技术网IT编程 | 我要评论

scrapy爬虫

步骤
1 进入虚拟环境
2 测试爬取页面
3 进入开发者模式
4 剥离页面中的数据
5 在pycharm中码代码

scrapy框架的目录（之前创建虚拟环境自动搭建）
nba.py源码详解

6 Debug

第一步点击调试
第二步查看内存数据是否对应

7 数据存入数据库

修改settings.py，配置Mysql数据库的信息

步骤

1 进入虚拟环境

进入之前以及搭建好的虚拟环境：

2 测试爬取页面

在anaconda的shell中输入下面格式（scrapy shell 要爬取的网站）：
shell

3 进入开发者模式

进入贴吧页面的开发者模式（在浏览器上按F12），分析标签：

4 剥离页面中的数据

再次进入shell查看需要的数据，同时观察数据特征：
剥离数据

5 在pycharm中码代码

scrapy框架的目录（之前创建虚拟环境自动搭建）

代码目录

nba.py源码详解

import scrapy
from urllib import parse
import re

class nbaSpider(scrapy.Spider):
    name = 'nba'
    allowed_domains = ['tieba.baidu.com']
    start_urls = ['https://tieba.baidu.com/f?kw=nba&fr=ala0&tpl=5']

    def parse(self, response):

        # 页面中帖子的url地址
        url_list = response.css('.j_th_tit::attr(href)').extract()

        # 循环遍历处理
        for url in url_list:
            print(url)

            # 下面总是可以形成一个完整的网站格式（域名 + 路径）
            yield scrapy.Request(url=parse.urljoin(response.url, url), callback=self.parse_detail)

        # 搞下一页                定位到 点击下一页 这一属性  提取出来第1个元素就是下1页
        next_url = response.css('.next.pagination-item::attr(href)').extract()[0]
        if next_url:
            yield scrapy.Request(url=parse.urljoin(response.url, next_url), callback=self.parse)

    def parse_detail(self, response):
        # 此处设置断点，查看到了第一个帖子：置顶帖，利用最后的href可以验证之

        # 拿到帖子的标题
        # 先提一下利用css提取的格式:(.class名字1.class名字2.class名字n::提取标签中的文本).从标签格式中剥离出去
        title = response.css('.core_title_txt.pull-left.text-overflow::text').extract()

        # 拿到作者的列表
        author = response.css('.p_author_name.j_user_card::text').extract()

        # 拿到帖子的内容(如果用::text会把图片给过滤掉；里面有杂质，需要进一步处理)
        contents_list = response.css('.d_post_content.j_d_post_content').extract()
        # 进步一步处理 帖子的内容，包含 图片地址，以及 前端的换行标签
        contents_list = self.get_content(contents_list)

        # 处理帖子发送的时间和帖子位于楼数(里面有杂质，需要进一步处理)
        bbs_sendtime_list, bbs_floor_list = self.get_send_time_and_floor(response)
        
        print() # 这里设置一个断点进行debug
        # pass

    def get_content(self, contents):
        contents_list = []
        for content in contents:
            reg = ";\">(.*)</div>"
            result = re.findall(reg, content)[0] # 返回值也是一个数组
            contents_list.append(result)

        return contents_list

    # 提取发帖时间和楼数的方法
    def get_send_time_and_floor(self, response): # 总体思路就是一个分析 和 提取数据的过程

        # 属性中为 该class名（post-tail-wrap）的标签 中的span标签中 的文本，其中span标签的class名又为：tail-info
        bbs_send_time_and_floor_list = response.css('.post-tail-wrap span[class=tail-info]::text').extract()

        i = 0 # 记录 bbs_send_time_and_floor_list 校表的位置，0是“来自”，1是楼数，2是发帖时间
        bbs_sendtime_list = []
        bbs_floor_list = []

        for bbs_send_time_and_floor in bbs_send_time_and_floor_list:

            # 老师先是把"来自"过滤掉了,也行!
            """
            for lz in bbs_send_time_and_floor_list:
                if lz == '来自':
                    bbs_send_time_and_floor_list.remove(lz)
            """
            # 我这里采用排除"来自"的方法是: 根据数据的特征来提取之. 上面的是老师的方法.
            if bbs_send_time_and_floor[-1] == '楼': # 这种情况存的是楼数
                bbs_floor_list.append(bbs_send_time_and_floor)

            if ':' in bbs_send_time_and_floor: # 这种情况存的是发帖时间
                bbs_sendtime_list.append(bbs_send_time_and_floor)

            i += 1

        return bbs_sendtime_list, bbs_floor_list

6 Debug

第一步点击调试

debug

第二步查看内存数据是否对应

7 数据存入数据库

修改settings.py，配置Mysql数据库的信息

本文地址：https://blog.csdn.net/qq_37150711/article/details/107290847

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

powershell自动化操作AD域、Exchange邮箱系列（1）——powershell 简介

从今天开始，系统的整理一下使用powershell自动化管理AD域账号、exchange邮箱账号的流程，最终我们... [阅读全文]
uniapp对图片的操作

1、查看图片（这个方式可以长按图片进行保存）//查看图片lookImage(){// 预览图片let imgAr... [阅读全文]
Jmeter 之BeanShell 获取 header 以及 body

Jmeter使用，从body 中获取数据脚本代码import org.apache.jmeter.config.... [阅读全文]
达梦8图形化安装步骤（Centos7）

达梦8图形化安装部署安装准备远程工具:xshell环境准备:vmware14\centos 7 操作系统镜像安装... [阅读全文]
50年前的登月程序和程序员有多硬核

| 出处：酷壳 – CoolShell2019年7月20日，是有纪念意义的一天，这天不是因为广大网民帮周杰伦在... [阅读全文]
OpenWrt挂载U盘

OpenWrt挂载U盘本人一的路由器是Newifi3, 刷成OpenWrt之后发现软件包的空闲空间过小，于是买了... [阅读全文]
shell脚本——sql连接及其查询结果重定向到txt

记录第一次写linux系统上的shell脚本一.shell实现的任务：1.将内存使用情况与磁盘使用情况重定向到t... [阅读全文]
Ubuntu 18.04 ARM64 可用的国内源

Ubuntu 18.04 ARM64 可用的国内源将下面的源替换到/etc/apt/source/list即可 ... [阅读全文]
mysql基于mysqldump脚本的逻辑备份

#!/bin/bash#自动备份脚本# you can use like this:./backupShell.... [阅读全文]
宋宝华：递归的出口在哪里？ (除夕创作年度最后一篇文章)

01递归的出口迭代的是人，递归的是神。递归的出口，在于停止递归。当递归函数在某条件成立后不再调用自身，即意味着递... [阅读全文]

网友评论


验证码：