当前位置：移动技术网 > IT编程>脚本编程>Python > python漫画爬虫:我不做人了，b站！爬取辉夜大小姐等漫画

python漫画爬虫:我不做人了，b站！爬取辉夜大小姐等漫画

2020年07月24日 | 移动技术网IT编程 | 我要评论

今天我们要爬取这个网站的《辉夜大小姐想让我告白》漫画（穷人靠科技，富人靠硬币，懂，不多说）
主要就两步：1.在主界面找到所有话的链接 2.在每一话找到该话的所有图片
在这里插入图片描述
首先我们找到了每一话的链接

# 获取章节链接和章节名称
hrefs = re.findall('<li>\n.*?<a href="(.*?\.html)\"\n.*?class="">\n.*?<span>(.*?)</span>',r.text)
for href in hrefs:
    # 拼接章节链接
    chapter_url = 'http://www.90mh.com' + href[0]
    name = href[1]
    chapter_path = root_path + '\\' + name
    print(chapter_path)
    # 辉夜大小姐想让我告白\周刊13话

在进入其中一话，找到每一话的所有图片
在这里插入图片描述

# 获取章节图片
    chapter_imges = re.search('chapterImages = (\[.*?\])',chapter_page.text,re.S)
    chapter_src = re.search('chapterPath = "(.*?)"',chapter_page.text).group(1)
''' ...... '''
pic_url = 'https://js1.zzszs.com.cn/' + chapter_src + chapter_imges[i]

最终效果：
在这里插入图片描述

成功！

当然，不同网站结构不同，爬取方式也有些许不同。比如动漫之家——参考自这里.
在这里插入图片描述
但方式其实也就那么几种，还是可以摸索出来的，目前我爬了四五个网站，也都成功了，大家可以自己动手试试。

为防止对网站造成压力，这里只公布部分源码，大家可以依照我的思路自己实现，如有需要评论区留邮箱。

本文地址：https://blog.csdn.net/weixin_43476533/article/details/107504865

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

Python如何合并多个字典或映射

问题现在有多个字典或者映射，你想将它们从逻辑上合并为一个单一的映射后执行某些操作，比如查找值或者检查某些键是否存在。解决方案加入你有如下两个字典:a = {'x... [阅读全文]
Python图像处理二值化方法实例汇总

在用python进行图像处理时，二值化是非常重要的一步，现总结了自己遇到过的6种图像二值化的方法（当然这个绝对不是全部的二值化方法，若发现新的方法会继续新增）... [阅读全文]
浅析Python 多行匹配模式

问题你正在试着使用正则表达式去匹配一大块的文本，而你需要跨越多行去匹配。解决方案这个问题很典型的出现在当你用点(.)去匹配任意字符的时候，忘记了点(.)不能匹配... [阅读全文]
python实现学生管理系统开发

使用python完成超级基础的学生管理系统，供大家参考，具体内容如下说明：1、本学生管理系统非常非常简易，只有增，显，查，删，改功能，对于python新手容易看... [阅读全文]
深入了解NumPy 高级索引

numpy 比一般的 python 序列提供更多的索引方式。除了之前看到的用整数和切片的索引外，数组可以由整数数组索引、布尔索引及花式索引。整数数组索引以下实例... [阅读全文]
Python 解析简单的XML数据

问题你想从一个简单的xml文档中提取数据。解决方案可以使用 xml.etree.elementtree 模块从简单的xml文档中提取数据。为了演示，假设你想解析... [阅读全文]
用python实现学生管理系统

学生管理系统相信大家学各种语言的时候，练习总是会写各种管理系统吧，管理系统主要有对数据的增删查改操作，原理不难，适合作为练手的小程序数据的结构要保存数据就需要数... [阅读全文]
Python按照先后顺序，对列表进行多条件自定义排序

需求：对指定的列表，按照以下顺序排序：①先按照【编号】从小到大进行排序②再按照列表中包含【方案、扩初、施工图、后... [阅读全文]
Python经典入门100题 (21-30题)

Python入门练手，有这100题就够了！ [阅读全文]
python实现LRU算法

LRU算法python实现学习mysql数据库时，了解了一下ib_buffer_pool的存储机制，使用LRU... [阅读全文]

网友评论


验证码：

python漫画爬虫:我不做人了，b站！爬取辉夜大小姐等漫画

2020年07月24日 | 移动技术网IT编程 | 我要评论

为防止对网站造成压力，这里只公布部分源码，大家可以依照我的思路自己实现，如有需要评论区留邮箱。

您可能感兴趣的文章:

相关文章:

网友评论