当前位置：移动技术网 > IT编程>脚本编程>Python > python爬虫第五天

python爬虫第五天

2019年01月30日 | 移动技术网IT编程 | 我要评论

17yy无敌版小游戏大全,av幼兽福利视频,奥巴马开学演讲视频下载

我们访问网页是通过http协议进行的，而http协议是一个无状态协议（无法维持会话之间的状态），比如我们登录一个网站成功后访问另一个网页，那么登录状态就会消失，十分不方便。而我们可以通过cookie保存会话信息，将会话信息保存在客户端，或者用session保存会话信息在服务器端。但是服务器端会给客户端发送sessionid等信息，这些信息一般保存在cookie中，大部分时候我们都要用到cookie，而爬虫中我们可以通过cookie保持登录状态进行内容爬取。

cookiejar实战精析

注意：python3中使用cookiejar库进行处理，而在python2中可以使用cookielib库进行处理。

现在我们登录chinaunix论坛，http://bbs.chinaunix.net

我们先注册一下，然后我们可以通过fiddler工具进行分析，不过我们现在先使用f12调出调试界面，登录输入用户名密码，点击登录，观察调试界面。在network下找到登录request url字段得到post表单网址。（书中这样写的，但是现在网页自动跳转了，我没找到。。直接用了书上的可以用。）

import urllib.request
import urllib.parse
import http.cookiejar
#这里填写登录成功的url,这里的loginhash是书上的。这里用肯定不行，这里得在登录页面拿到才行
url="http://bbs.chinaunix.net/member.php?mod=logging&action=login&logsubmit=yes&loginhash=l68q"
postdata=urllib.parse.urlencode({
    #这里填写用户名密码，自己填自己的吧
    "username":"yang",
    "password":"1234567890"
}).encode('utf-8')
req=urllib.request.request(url,postdata)
req.add_header('user-agent','mozilla/5.0 (windows nt 10.0; wow64) applewebkit/537.36 (khtml, like gecko) chrome/63.0.3239.132 safari/537.36')
#创建cookiejar对象
cjar=http.cookiejar.cookiejar()
#使用httpcookieprocessor创建cookie处理器，并以其为参数opener为参数
opener=urllib.request.build_opener(urllib.request.httpcookieprocessor(cjar))
#将opener安装为全局
urllib.request.install_opener(opener)
file=opener.open(req)
data=file.read()
file=open("d:/crawler/9.html","wb")
file.write(data)
file.close()
url2="http://bbs.chinaunix.net"
data2=urllib.request.urlopen(url2).read()
fhandle=open("d:/crawler/10.html","wb")
fhandle.write(data2)
fhandle.close()

这个代码我还没有弄成功，先放在这里吧。

接下来开始手写爬虫实战

图片爬虫实战

首先我们先实现一个简单的爬虫，我们打开京东首页www.jd.com

进入手机分类商品，我们点击下一页发现网址变了，

可以发现这里是使用get方法请求的，如何自动爬取其他页的情况呢?我们可以使用for循环每次循环后把page字段加1，即自动切换到下一页，之后我们要获取对应的图片，使用正则表达式匹配源码中的图片的链接部分，然后通过urllib.request.urlretrieve()方法将对应的链接保存在本地。

我们要先过滤点信息走，我们右击查看源代码：我们要找到一个唯一的标识，并且包含要爬取得内容，以及尽量少的无关信息。这里我们找到<div id = "plist">

这是开头的部分，结尾的标识<div class="page clearfix"满足要求

这样过滤就是：用正则表达式只取这两个标识中间的内容：patl='<div id="plist".+?<div class="page clearfix">'

import re
import urllib.request
import urllib.error
 
def craw(url,page):
    html1=urllib.request.urlopen(url).read()
    html1=str(html1)
    pat1='<div id="plist".+?<div class="page clearfix">'
    result1=re.compile(pat1).findall(html1)
    result1=result1[0]
    pat2='<img width="220" height="220" data-img="1" src="//(.+?\.jpg)">'
    imagelist=re.compile(pat2).findall(result1)
    x=1
 
    for imageurl in imagelist:
        imagename="d://crawler/image/image"+str(page)+str(x)+".jpg"
        imageurl="http://"+imageurl
        try:
            urllib.request.urlretrieve(imageurl,filename=imagename)
        except urllib.error.urlerror as e:
            if hasattr(e,"code"):
                x+=1
            if hasattr(e,"reason"):
                x+=1
        x+=1
 
for i in range(1,15):
    url="http://list.jd.com/list.html?cat=9987,653,655&page="+str(i)
    craw(url,i)
 

这样就爬取成功了，我亲测可以。

今天实在是懒就写这么多了

此文是我在学习《精通python网络爬虫》（韦玮著）的总结,纯手打。

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python dict乱码如何解决

定义字典并直接输出，结果输出结果中文是乱码展示d={'name':'lily','age':18,'sex':'女','no':1121}print d输出结果... [阅读全文]
如何写python的配置文件

一、创建配置文件在d盘建立一个配置文件，名字为：test.ini内容如下：[baseconf]host=127.0.0.1port=3306user=rootp... [阅读全文]
使用Python FastAPI构建Web服务的实现

fastapi 是一个使用 python 编写的 web 框架，还应用了 python asyncio 库中最新的优化。本文将会介绍如何搭建基于容器的开发环境，... [阅读全文]
Python过滤掉numpy.array中非nan数据实例

代码需要先导入pandasarr的数据类型为一维的np.arrayimport pandas as pdarr[~pd.isnull(arr)]补充知识：pyt... [阅读全文]
python求numpy中array按列非零元素的平均值案例

输入：numpy的array输出：一个一维的平均值arrayimport numpy as np def non_zero_mean(np_arr): exis... [阅读全文]
Python如何向SQLServer存储二进制图片

需求是需要用python往 sqlserver中的image类型字段中插入二进制图片核心代码，研究好几个小时的代码：安装pywin32，adodbapiimag... [阅读全文]
python numpy实现rolling滚动案例

相比较pandas，numpy并没有很直接的rolling方法，但是numpy 有一个技巧可以让numpy在c代码内部执行这种循环。这是通过添加一个与窗口大小相... [阅读全文]
python opencv 实现读取、显示、写入图像的方法

opencv是一个强大的图像处理和计算机视觉库，实现了很多实用算法，值得学习和深究下。opencv包安装·　　这里直接安装opencv-python包（非官方）... [阅读全文]
python thrift 实现单端口多服务的过程

thrift 是一种接口描述语言和二进制通信协议。以前也没接触过，最近有个项目需要建立自动化测试，这个项目之间的微服务都是通过 thrift 进行通信的，然后写... [阅读全文]
Python while true实现爬虫定时任务

记得以前的windows 任务定时是可以的正常使用的，今天试了下，发现不能正常使用了，任务计划总是挂起。接下来记录下python 爬虫定时任务的几种解决方法。今... [阅读全文]

网友评论


验证码：

python爬虫第五天

2019年01月30日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论