当前位置：移动技术网 > IT编程>开发语言>Java > 荐爬取妹子图片（简单入门）

荐爬取妹子图片（简单入门）

2020年07月03日 | 移动技术网IT编程 | 我要评论

简单爬虫

安装第三方库
请求页面
解析网页
保存图片

今天深圳的晚上很冷，半夜就睡醒了，出去买点吃的难受的一批

在这里插入图片描述
说好的24小时呢？
开搞开搞

安装第三方库

安装第三方请求库(requests)
pip install requests

请求页面

在这里插入图片描述
请求成功了
存在特殊情况：请求失败
原因八成是网页知道我们是Python过来的不给我们请求。

这里教各路神仙去解决这个User-Agent的尴尬问题：

在这里插入图片描述
嗯…怎么看网页的啊？
啊Sir。来了不要催
（只好打马赛克了）

## 请求网页
import requests
headers={
    'User-Agent':'only老K'# 这里可以随意输入,也可以输入网页上面的User-Agent
}
response = requests.get('https://www.vmgirls.com/12945.html')
print(response.request.headers)
print(response.text)

解析网页

需要使用 re库来进行正则匹配
找到我们的图片的位置
在这里插入图片描述
上面注意看匹配内容
然后进行解析（我们不是什么都需要匹配的，只是需要匹配href里面的内容）

## 请求网页
import requests
import re

headers = {
    'User-Agent':'only老K'# 这里可以随意输入,也可以输入网页上面的User-Agent
}
response = requests.get('https://www.vmgirls.com/12945.html')#然后这里就吧上面的headers放进去
#response = requests.get('https://www.vmgirls.com/12945.html',headers=headers)
# print(response.request.headers)
# print(response.text)
html = response.text
#解析网页
urls = re.findall('<a href="(.*?)" alt=".*?" title=".*?">',html) # (.*?) 意思就是匹配这个数据
print(urls)

保存图片

第一版本：（文件存在在当前的文件夹，没有创建出来分类）

User-Agent：请求对象   AppleWebKit：请求内核  Chrome浏览器
## 请求网页
import requests
import re
import time

headers = {
    'User-Agent':'only老K'# 这里可以随意输入,也可以输入网页上面的User-Agent
}
response = requests.get('https://www.vmgirls.com/12945.html')
# print(response.request.headers)
# print(response.text)
html = response.text
#解析网页
urls = re.findall('<a href="(.*?)" alt=".*?" title=".*?">',html)
print(urls)
# 保存图片
for url in urls:
    time.sleep(1) #睡眠一秒，别把别人网站查崩了
    file_name = url.split('/')[-1]
    response = requests.get(url) # 重新请求网站 图片地址就可以直接看了
    with open(file_name,'wb') as f: #'wb':二进制 file_name：图片名称
        f.write(response.content)

图片就有了…
在这里插入图片描述
有问题?有点…不可能数据啥子的都放这里吧…

现在处理

## 请求网页
import requests
import re
import time
import os

headers = {
    'User-Agent':'only老K'# 这里可以随意输入,也可以输入网页上面的User-Agent
}
response = requests.get('https://www.vmgirls.com/12945.html')
# print(response.request.headers)
# print(response.text)
html = response.text
#解析网页
dir_name = re.findall('<h1 class="post-title h3">(.*?)</h1>',html)[-1] #根据网页标题去做我们的文件夹名字
if not os.path.exists(dir_name):
    os.mkdir(dir_name)
urls = re.findall('<a href="(.*?)" alt=".*?" title=".*?">',html) # (.*?) 意思就是匹配这个数据
# print(urls)
# 保存图片
for url in urls:
    time.sleep(1)
    file_name = url.split('/')[-1]
    response = requests.get(url)
    with open(dir_name +'/' + file_name,'wb') as f: #'wb':二进制 file_name：图片名称
        f.write(response.content)

网络觉得你的爬取速度…

2020.6.22更新一波：Python连接数据库，为后期相关操作做准备
Python连接数据库以及组合拳
更新的再次提交，CSDN没有通过，小编只好把图片去掉了

本文地址：https://blog.csdn.net/weixin_44255950/article/details/106729309

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

springmvc之ResponseBody响应json数据遇到的错误及解决

使用@RequestBody注解把json的字符串转换成JavaBean的对象代码实践过程中遇到错误：[http... [阅读全文]
nuxt模板的创建及使用（koa、sass）

概念Nuxt.js 是一个基于 Vue.js 的服务端渲染应用框架。Nuxt.js 为客户端/服务端这种典型... [阅读全文]
今天学习了transform的几种变换属性

transform变换transform: translate(x,y);1、2D移动是2D转换里面的一个功能，... [阅读全文]
Docker部署Gitlab，ssh端口不用22的解决方法

虚拟机中的端口：22被占用了，所以Gitlab的端口：22需要重新映射解决办法：web: image: 'gi... [阅读全文]
uni-app 后台升级静默升级 uniapp 后台更新静默更新在线升级

uni-app开发到一段落了，最后的app更新好好搞一下，完美的收尾，哈哈哈在uni-app的文档中可以看到内置... [阅读全文]
VSCode使用码云(Gitee)简易教程

配置Git配置SSH公钥安装完Git以后，打开Git Bash。执行如下命令生成ssh公钥：ssh-keygen... [阅读全文]
JavaWeb 之Servlet 规律强化(三)

一.Servlet规律强化1.WEB项目Servlet服务器Java小程序。Jar包：2.... [阅读全文]
荐写好技术简历的一些建议

根据我求职与招聘的经验，结合网上相关资料，这里整理了一些写好技术简历的建议。这里提供了一份简历模版，可供参考。保... [阅读全文]
SpringBoot多Module启动报错Could not transfer metadata

原因：本地没找到项目依赖的jar去私服找解决办法：install本地项目 [阅读全文]
Hibernate项目报错：Cannot call sendError() after the response has been committed

问题描述：在之前的旧项目上开发一些新功能：其中一个功能是开发系统的操作日志，项目框架是：SSH，由于系统已经上... [阅读全文]