当前位置：移动技术网 > IT编程>脚本编程>Python > python3中运用urllib抓取贴吧的邮箱以及QQ

python3中运用urllib抓取贴吧的邮箱以及QQ

2020年03月10日 | 移动技术网IT编程 | 我要评论

老汉进小巷后失联,u10i拆机,彭丹吃奶

　　python3中运用urllib抓取贴吧的邮箱以及qq:

import urllib
import urllib.request
import re
from urllib import parse

#抓取贴吧页面数量信息
def gettiebalistnumbers(name):    #计算搜索的关键词有多少页  输入名字  返回页数
    url="https://tieba.baidu.com/f?"
    headers = {"user-agent": "mozilla/5.0 (windows nt 6.1; wow64) applewebkit/537.36 (khtml, like gecko) chrome/63.0.3239.132 safari/537.36 qihu 360se"}  # header 字典形式
    word = {"kw": name}  # 接口   贴吧的名字
    word = parse.urlencode(word)  # 编码成字符串
    url = url + word  # 拼接url
    request = urllib.request.request(url, headers=headers)  # 发送请求
    # 也可以通过调用request.add_header()  添加/修改一个特定的  header
    request.add_header("connection", "keep-alive")  # 一直活着
    response = urllib.request.urlopen(request)  # 打开请求
    data = response.read().decode("utf-8")  # 读取数据
    print(response.code)  # 可以查看相应状态码

    restr = "<span class=\"card_infonum\">([\s\s]*?)</span>"  # 正则这个贴吧有多少帖子
    regex = re.compile(restr, re.ignorecase)
    mylist = regex.findall(data)  #寻找页面所有符合条件的
    tienumbers = mylist[0].replace(",","")  #替换逗号
    tienumbers = eval(tienumbers)   #str转化为数字
    #print(tienumbers)

    restr = "<span class=\"card_mennum\">([\s\s]*?)</span>"  # 正则关注贴吧的数
    regex = re.compile(restr, re.ignorecase)
    mylist = regex.findall(data)  # 寻找页面所有符合条件的
    peoplenumbers = mylist[0].replace(",", "")  # 替换逗号
    peoplenumbers = eval(peoplenumbers)  # str转化为数字
    #print(peoplenumbers)

    return tienumbers,peoplenumbers

def gettiebalist(name):   #抓取所有的符合name的页数  输入搜索关键词，返回所有的页数url
    numberstuple=gettiebalistnumbers(name)   #(元组）
    tienumbers=numberstuple[1]   #帖子的数量
    word = {"kw": name}  # 接口   贴吧的名字
    word = parse.urlencode(word)  # 编码成字符串
    tiebalist = []
    if tienumbers % 53 == 0:  # 生成页面列表
        for i in range(tienumbers // 53):
            tiebalist.append("https://tieba.baidu.com/f?" + word + "&pn=" + str(i * 50))
    else:
        for i in range(tienumbers // 53 + 1):
            tiebalist.append("https://tieba.baidu.com/f?" + word + "&pn=" + str(i * 50))
    #print(tiebalist)
    return tiebalist
def geturllistformpage(url):      #抓取页面的每个帖子url  输入一页url 返回列表内的的所有url
    headers = {"user-agent": "mozilla/5.0 (compatible; msie 9.0; windows nt 6.1; trident/5.0);"}
    request = urllib.request.request(url, headers=headers)  # 发起请求，
    # 也可以通过调⽤request.add_header() 添加/修改⼀个特定的 header
    response=urllib.request.urlopen(request)
    data=response.read().decode("utf-8","ignore")#打开请求，抓取数据
    #print(response.code)  # 可以查看响应状态码

    restr = "<ul id=\"thread_list\" class=\"threadlist_bright j_threadlist_bright\">([\s\s]*?)<div class=\"thread_list_bottom clearfix\">"  # 正则表达式，（）只要括号内的数据
    regex = re.compile(restr, re.ignorecase)
    mylist = regex.findall(data)
    #print(mylist[0])#抓取整个表格

    restr = "href=\"/p/(\d+)\""  # 正则表达式，（）只要括号内的数据
    regex = re.compile(restr, re.ignorecase)
    urltitlelist = regex.findall(data)
    #print(urltitlelist)      #抓取的url变化的数字
    urllist=[]
    for title in urltitlelist:
        urllist.append("http://tieba.baidu.com/p/"+title)   #拼接链接
    #print(urllist)  #得到每个页面的帖子url列表
    return urllist
def getallurllist(url):          #获取每一页里面的分页   输入一个帖子url  输出所有分页url链接
    headers = {"user-agent": "mozilla/5.0 (windows nt 6.1; wow64) applewebkit/537.36 (khtml, like gecko) chrome/63.0.3239.132 safari/537.36 qihu 360se"}  # header 字典形式
    request = urllib.request.request(url, headers=headers)  # 发送请求
    # 也可以通过调用request.add_header()  添加/修改一个特定的  header
    response = urllib.request.urlopen(request)  # 打开请求
    tiebadata = response.read().decode("utf-8", "ignore")  # 读取数据
    allurllist1=[]

    restr = "共<span class=\"red\">(\d+)</span>页</li>"  # 正则表达式，（）只要括号内的数据
    regex = re.compile(restr, re.ignorecase)
    numalllist = regex.findall(tiebadata)
    nums=eval(numalllist[0])
    for i in range(1,nums+1):
        allurllist1.append(url+"?pn="+str(i))


    return allurllist1

    # print(urltitlelist)      #抓取的url变化的数字


def getpagedata(url):
    headers = {"user-agent": "mozilla/5.0 (windows nt 6.1; wow64) applewebkit/537.36 (khtml, like gecko) chrome/63.0.3239.132 safari/537.36 qihu 360se"}  # header 字典形式
    request = urllib.request.request(url, headers=headers)  # 发送请求
    # 也可以通过调用request.add_header()  添加/修改一个特定的  header
    response = urllib.request.urlopen(request)  # 打开请求
    pagedata = response.read().decode("utf-8","ignore")  #读取数据
    return pagedata
def getemaillistfrompage(pagedata):  #在帖子内页面，把每一个邮箱抓取下来   输入一个帖子url 返回邮箱
    emaillist = []
    restr = "[a-z0-9._%+-]+[@][a-z0-9.-]+\.[a-z]{2,4}"  # 正则表达式，（）只要括号内的数据
    regex = re.compile(restr, re.ignorecase)
    emaillist = regex.findall(pagedata)
    return emaillist      #返回提取的邮箱列表

def qqlistfrompage(url):  #在帖子内页面，把每一个邮箱抓取下来   输入一个帖子url 返回qq
    headers = {"user-agent": "mozilla/5.0 (windows nt 6.1; wow64) applewebkit/537.36 (khtml, like gecko) chrome/63.0.3239.132 safari/537.36 qihu 360se"}  # header 字典形式
    request = urllib.request.request(url, headers=headers)
    response = urllib.request.urlopen(request)
    #data = response.read().decode("utf-8","ignore")  #读取数据
    qqlist = []
    while true:
        line = response.readline()
        line = line.decode('utf-8')
        if not line:
            break
        if line.find("qq") != -1 or line.find("qq") != -1 or line.find("qq") != -1:
            restr = "[1-9]\\d{4,10}"  # 正则表达式，（）只要括号内的数据
            regex = re.compile(restr, re.ignorecase)
            templist = regex.findall(line)
            qqlist.extend(templist)
    return qqlist

#print(gettiebalistnumbers("python"))

#print(gettiebalist("python3"))


#mylist=gettiebalist("python3")
#for line in mylist:
#    print(line)
#geturllistformpage("https://tieba.baidu.com/f?kw=python3&ie=utf-8&pn=4000")
#print(getemaillistfrompage(getpagedata("http://tieba.baidu.com/p/6490450301")))
#print(qqlistfrompage("http://tieba.baidu.com/p/3950107421"))
""" 
name="qqmail"
emailalllist=[]
for numberurl in gettiebalist(name):   #取出这个关键词  所有页面的url
    tieziurllist=geturllistformpage(numberurl) #取出每个页面的 帖子url
    for fentieziurllist in tieziurllist:
        tieziurllist1=getallurllist(fentieziurllist)
        
        for pagetext in tieziurllist1:     
            pagedata=getpagedata(pagetext)   #取出每个页面的代码
            datas=getemaillistfrompage(pagedata)  #正则提取邮箱
            if len(datas) !=0:        #如果提取的里面一个页面上的一个帖子  邮箱不是空的话
                emailalllist.append(datas[0])
print(emailalllist)             #测试可以提取一个 贴吧的所有邮箱
 """
"""
name="qqmail"
qqalllist=[]
for numberurl in gettiebalist(name):   #取出这个关键词  所有页面的url
    tieziurllist=geturllistformpage(numberurl) #取出每个页面的 帖子url
    for url in tieziurllist:
        qqnumberlist=qqlistfrompage(url)    #提取的里面一个页面上的一个帖子的qq
        #print(qqnumberlist)
        if len(qqnumberlist) != 0:    #如果一个页面qq不为空的话
            for qqdata in qqnumberlist:    #一个页面qq列表遍历
                qqalllist.append(qqdata)   #添加到列表中
         #   qq=qqalllist.append(qqnumberlist[0])
#print(qqalllist)# #提取一个贴吧的所有qq  测试成功
"""

name="qqmail"
savefilepath="qqmail_qq.txt"
savefile=open(savefilepath,"wb")
for numberurl in gettiebalist(name):   #取出这个关键词  所有页面的url
    tieziurllist=geturllistformpage(numberurl) #取出每个页面的 帖子url
    for fenurl in tieziurllist:
        tieziurllist1=getallurllist(fenurl)   #一个页面分页的所有链接
        for url in tieziurllist1:
            qqnumberlist=qqlistfrompage(url)    #提取的里面一个页面上的一个帖子的qq
            #print(qqnumberlist)
            if len(qqnumberlist) != 0:    #如果一个页面qq不为空的话
                print(qqnumberlist)
                qqstr=" ".join(qqnumberlist)
                savefile.write((qqstr+"\r\n").encode("utf-8"))

         #   qq=qqalllist.append(qqnumberlist[0])
#最后写入文件测试，  写入qq.txt  69k
# timeouterror: [winerror 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。
#可优化为timeout=   或者导入 import time  进行time.sleep(3) 睡眠定时访问操作，
#为避免出错，还需再访问url时加入  try   except  出错避过

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python如何查看网页代码

用python查看网页代码的方法：1、使用“import”导入requests包import requests2、使用requests包的get()函数通过网页... [阅读全文]
Python如何用wx模块创建文本编辑器

用python的wx模块创建文本编辑器的方法：1、设置按钮的位置import wxapp = wx.app()win = wx.frame(none,title... [阅读全文]
python如何保存文本文件

python保存文本文件的方法：使用python内置的open()类可以打开文本文件，向文件里面写入数据可以用write()函数，写完之后，使用close()函... [阅读全文]
python如何编写win程序

python可以编写win程序。win程序的格式是exe，下面我们就来看一下使用python编写exe程序的方法。编写好python程序后py2exe模块即可将... [阅读全文]
Python替换NumPy数组中大于某个值的所有元素实例

我有一个2d(二维) numpy数组，并希望用255.0替换大于或等于阈值t的所有值。据我所知，最基础的方法是：shape = arr.shaperesult ... [阅读全文]
使用Numpy对特征中的异常值进行替换及条件替换方式

原始数据为excel文件，由传感器获得，通过pyhton xlrd模块读入，读入后为数组形式，由于其存在部分异常值和缺失值，所以便利用numpy对其中的异常值进... [阅读全文]
Python 实现将numpy中的nan和inf,nan替换成对应的均值

nan：not a numberinf：infinity;正无穷numpy中的nan和inf都是float类型t!=t 返回bool类型的数组(矩阵)np.co... [阅读全文]
给ubuntu18安装python3.7的详细教程

参考文章准备工作安装工具sudo apt updatesudo apt upgradesudo apt install gccsudo apt install ... [阅读全文]
python爬虫把url链接编码成gbk2312格式过程解析

1. 问题　　抓取某个网站，发现请求参数是乱码格式，这是点击 textview，发现请求参数如下图所示3. 那么=%b9%fa%ce%f1%d4%ba%b7%a... [阅读全文]
pyecharts在数据可视化中的应用详解

使用pyecharts进行数据可视化安装 pip install pyecharts也可以在pycharm软件里进行下载pyecharts库包。下载成功后进行查... [阅读全文]

网友评论


验证码：

python3中运用urllib抓取贴吧的邮箱以及QQ

2020年03月10日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论