当前位置：移动技术网 > IT编程>脚本编程>Python > python学习（三）--跟着例子写的贴吧网页爬取

python学习（三）--跟着例子写的贴吧网页爬取

2019年03月28日 | 移动技术网IT编程 | 我要评论

景凌网zwb9,华清远见,黄山ie修复专家注册码

from urllib import request
import  urllib

#爬贴吧网页文件到本地。首先在本地打开百度贴吧 搜索 java吧
#第一页的内容是:http://tieba.baidu.com/f?ie=utf-8&kw=java&fr=search&red_tag=f0746297280
#第二页         http://tieba.baidu.com/f?kw=java&ie=utf-8&pn=50
#第三页         http://tieba.baidu.com/f?kw=java&ie=utf-8&pn=100
#第四页         http://tieba.baidu.com/f?kw=java&ie=utf-8&pn=150
#看规律  只有第一页比较特殊  把第一页换成：http://tieba.baidu.com/f?kw=java&ie=utf-8&pn=0  也是可以的
#也就是地址栏实际上是  http://tieba.baidu.com/f?kw=java（如果是中文需要转码）&ie=utf-8&pn=0（格式为：（页数-1）*50）

def load_file(url, fname):
    print("正在下载："+fname)
    # 水果手机的safari
    header = {"user-agent":
                  "mozilla/5.0 (iphone; u; cpu iphone os 4_3_3 like mac os x; en-us) applewebkit/533.17.9 (khtml, like gecko) version/5.0.2 mobile/8j2 safari/6533.18.5"}
    req = request.request(url, headers=header)

　　#这里是read方法 就读取到了原始网页  开始加了decode方法，结果报类型错误。decode方法把内容解析成了一个字符串

    data = request.urlopen(req).read()

    return data






def spider(url, begin, end, filename):
    #rang函数 理解的类似于java的字符串切割的包左不包右原则，所以需要+1
    for page in range(begin, end+1):
        url = url +str((page-1)*50)
        fname = filename +str(page) +"页.html"
        html = load_file(url, fname)
        writepage(html, fname)


def writepage(html, fname):
    print("正在保存："+fname)
    #存放位置
    targetloaction = "d:\浏览器下载目录\images" + "\\"+fname
    print("保存文件为："+targetloaction)
    with open(targetloaction, "wb") as f:
        f.write(html)

    print(fname+"爬取成功")


if __name__ == "__main__":
    name = input("请输入要爬取的贴吧名：")
    begin = int(input("请输入起始页："))
    end = int(input("请输入尾页："))

    if int(begin) > int(end) :
        print("起始页不可大于尾页")
        quit()

#组装url
kw = urllib.parse.urlencode({"kw":name})
url = "http://tieba.baidu.com/f?kw="+kw+"&ie=utf-8&pn="
filename = "爬取"+name+"吧第"

spider(url, begin, end, filename);

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python如何查看网页代码

用python查看网页代码的方法：1、使用“import”导入requests包import requests2、使用requests包的get()函数通过网页... [阅读全文]
Python如何用wx模块创建文本编辑器

用python的wx模块创建文本编辑器的方法：1、设置按钮的位置import wxapp = wx.app()win = wx.frame(none,title... [阅读全文]
python如何保存文本文件

python保存文本文件的方法：使用python内置的open()类可以打开文本文件，向文件里面写入数据可以用write()函数，写完之后，使用close()函... [阅读全文]
python如何编写win程序

python可以编写win程序。win程序的格式是exe，下面我们就来看一下使用python编写exe程序的方法。编写好python程序后py2exe模块即可将... [阅读全文]
Python替换NumPy数组中大于某个值的所有元素实例

我有一个2d(二维) numpy数组，并希望用255.0替换大于或等于阈值t的所有值。据我所知，最基础的方法是：shape = arr.shaperesult ... [阅读全文]
使用Numpy对特征中的异常值进行替换及条件替换方式

原始数据为excel文件，由传感器获得，通过pyhton xlrd模块读入，读入后为数组形式，由于其存在部分异常值和缺失值，所以便利用numpy对其中的异常值进... [阅读全文]
Python 实现将numpy中的nan和inf,nan替换成对应的均值

nan：not a numberinf：infinity;正无穷numpy中的nan和inf都是float类型t!=t 返回bool类型的数组(矩阵)np.co... [阅读全文]
给ubuntu18安装python3.7的详细教程

参考文章准备工作安装工具sudo apt updatesudo apt upgradesudo apt install gccsudo apt install ... [阅读全文]
python爬虫把url链接编码成gbk2312格式过程解析

1. 问题　　抓取某个网站，发现请求参数是乱码格式，这是点击 textview，发现请求参数如下图所示3. 那么=%b9%fa%ce%f1%d4%ba%b7%a... [阅读全文]
pyecharts在数据可视化中的应用详解

使用pyecharts进行数据可视化安装 pip install pyecharts也可以在pycharm软件里进行下载pyecharts库包。下载成功后进行查... [阅读全文]

网友评论


验证码：

python学习（三）--跟着例子写的贴吧网页爬取

2019年03月28日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论