当前位置：移动技术网 > IT编程>脚本编程>Python > python利用requests模块，实现爬取电影天堂最新电影信息。

python利用requests模块，实现爬取电影天堂最新电影信息。

2019年03月31日 | 移动技术网IT编程 | 我要评论

男孩袜袜,规律的近义词,最新车祸现场女尸

　　自学python两个多月，偶然获得了老男孩自动化开发14期视频，如获珍宝。喜欢alex的鸡汤，喜欢武sir的认真，还没看完，收获很大。

　　今天想利用所学知识来爬取电影天堂所有最新电影信息，用到的模块：

　　　　requests：用于获取网页信息

　　　　re：获取网页中具体想要的信息

　　　　beautifulsoup：便于标签搜索，获取想要信息

　　　　threading：使用多线程大幅度缩短爬取时间

　　　　queue：使用线程队列来写入文件（实际上我是把数据全部存入了数据库）

　　　　大概差不多就这些模块。

欢迎各位大佬指点。(好想alex，或者武sir看到，提点建议）

# author : 'n1celll'
import requests
import json
import re
from bs4 import beautifulsoup
import threading
import queue,time

header = header = {
    'user-agent': 'mozilla/5.0 (windows nt 10.0; win64; x64) applewebkit/537.36 (khtml, like gecko) chrome/73.0.3683.86 safari/537.36'}

url = 'http://www.ygdy8.net/html/gndy/dyzz/'

def get_page(url):
    index = resp = requests.get(url, headers=header)
    index.enconding = 'gbk'# 将编码转为与html一致
    t = index.text
    index_soup = beautifulsoup(t, 'html.parser')# 将获得的网页信息 转成soup对象
    all_pages = index_soup.find('select', attrs={'name': 'sldd'}).find_all('option')[-1] # 获得总页数
    page = int(all_pages.string)
    return page

def get_data(page):

    page_url = 'http://www.ygdy8.net/html/gndy/dyzz/list_23_%s.html' % (page)  # 获取每一页数据
    print(page)
    # page_url = 'http://www.ygdy8.net/html/gndy/dyzz/list_23_30.html'
    res = requests.get(page_url, headers=header)
    res.encoding = 'gbk'  # 'gb2312'
    a = res.text
    soup = beautifulsoup(a, 'html.parser')
    name = soup.find_all('a', attrs={'class': 'ulink'})
    # print(name)测试
    for i in name:
        try:
            moive_name = re.search('《(.*?)(》|】)', i.string).group()
            # 有两个坑，这个里面有个电影名字不是用的书名号，还有一个电影有两个a标签
        except:
            continue
        html = 'http://www.ygdy8.net' + i['href']
        da = requests.get(html, headers=header)
        da.encoding = 'gbk'  # da.apparent_encoding
        db = da.text
        # f = open('test2.txt','w',encoding='utf8')
        # f.write(a.text)
        # f.close()
        dr = beautifulsoup(db, 'html.parser')
        span = dr.find('span', attrs={'style': 'font-size: 12px'})
        if span:
            dc = span.text.split()

            data = ''
            for i in dc:
                data += i
            print(data)
            msg = {}
            if data:
                msg['mname'] = moive_name
                try:
                    show_t = re.search(r'(?<=(◎年代|◎时间|品年代|年代】|播时间|播】：))(.*?)(?=◎|年|【)', data).group()
                except:
                    show_t = re.search(r'(?<=日期|份：)(.*?)(?=(-|剧))', data).group()
                msg['mtime'] = show_t
                try:
                    country = re.search(r'(?<=(◎国家|◎产地|◎地区|◎国别|国家】))(.*?)(?=◎|【类)', data).group()
                except:
                    try:
                        country = re.search(r'(?<=地区)(.*?)(?=语言)', data).group()
                    except:
                        country = '未知'
                msg['mcountry'] = country
                try:
                    time = re.search(r'(?<=◎片长|长度】)(.*?)(?=◎|【)', data).group()
                except:
                    time = '未知'
                msg['mtime'] = time
                try:
                    mtype = re.search(\
                        r'(?<=(◎类别|别类型|影类型|◎类型|集类型|◎分类|类型：|类别】|片类型|型】：))(.*?)(?=(◎|级别|【出品|【主演))', \
                        data).group()
                except:
                    try:
                        mtype = re.search(r'(?<=类型:)(.*?)(?=国)', data).group()
                    except:
                        mtype = re.search(r'动作|爱情|战争', data).group()
　　　　　　　　　 #以上的正则表达式，感觉用的很笨拙，希望有技术大牛提点建议
                # with open('test4.txt','a+',encoding='utf8') as f:测试
                #     f.write('%s: %s,%s,%s,%s\n' % (moive_name, country, mtype, time, show_t))测试
                q.put('%s: %s,%s,%s,%s,%s\n' % (moive_name, country, mtype, time, show_t,html))

q = queue.queue(maxsize=10000)
t_obj = []
lock = threading.lock()#加上线程锁
# semaphore = threading.boundedsemaphore(200)
def writing(f):
    # semaphore.acquire()
    data = q.get()
    lock.acquire()
    f.write(data)
    lock.release()
    # semaphore.release()
        # if not q.get():
        #     f.close()
        #     break
    # print('写入完成')
all_page = get_page(url)
f = open('test4.txt', 'w', encoding='utf8')
print(all_page+1)

for i in range(1,all_page+1):
    t = threading.thread(target=get_data,args=(i,))
    t.start()
    t_obj.append(t)
for t in t_obj:
    t.join()#保证所有线程结束后开始写入
    print('%s over'%t)

while q.qsize():#判断队列里面是否还有元素
    w = threading.thread(target=writing, args=(f,))
    w.start()
    w.join()
else:
    print('写入完成')

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

Python爬虫:Request Payload和Form Data的简单区别说明

request payload 和 form data 请求头上的参数差别在于：content-typeform datapost表单请求代码示例headers... [阅读全文]
如何基于python实现不邻接植花

有 n 个花园，按从 1 到 n 标记。在每个花园中，你打算种下四种花之一。paths[i] = [x, y] 描述了花园 x 到花园 y 的双向路径。另外，没... [阅读全文]
构建高效的python requests长连接池详解

前文：最近在搞全网的cdn刷新系统，在性能调优时遇到了requests长连接的一个问题，以前关注过长连接太多造成浪费的问题，但因为系统都是分布式扩展的，针对这种... [阅读全文]
python中threading开启关闭线程操作

在python中启动和关闭线程：首先导入threadingimport threading然后定义一个方法def serial_read():......然后定... [阅读全文]
浅谈Python中threading join和setDaemon用法及区别说明

python多线程编程时，经常会用到join()和setdaemon()方法，今天特地研究了一下两者的区别。1、join ()方法：主线程a中，创建了子线程b，... [阅读全文]
Python3-异步进程回调函数(callback())介绍

废话不多说，大家之家看代码吧！#异步'''举例：你喊你朋友吃饭，你朋友正忙，如果你一直在那等他，等你朋友忙完了，你们一块去。--同步调用你喊你朋友吃饭，你朋友正... [阅读全文]
python继承threading.Thread实现有返回值的子类实例

继承与threading.thread实现有返回值的子类mythread，废话不多说，大家直接看代码import threadingclass mythread... [阅读全文]
浅谈Python3多线程之间的执行顺序问题

一个多线程的题：定义三个线程id分别为abc，每个线程打印10遍自己的线程id，按abcabc……的顺序进行打印输出。我的解法：from threading i... [阅读全文]
Python中使用threading.Event协调线程的运行详解

threading.event机制类似于一个线程向其它多个线程发号施令的模式，其它线程都会持有一个threading.event的对象，这些线程都会等待这个事件... [阅读全文]
python 实现两个线程交替执行

我就废话不多说，直接看代码吧！import threadingimport timedef a(): while true: lockb.acquire... [阅读全文]

网友评论


验证码：

python利用requests模块，实现爬取电影天堂最新电影信息。

2019年03月31日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论