当前位置：移动技术网 > IT编程>网页制作>HTML > 51job-爬虫

51job-爬虫

2020年07月11日 | 移动技术网IT编程 | 我要评论

import requests
import urllib3
from fake_useragent import UserAgent
from lxml import etree
import csv
import time
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)


def get_html(page, keyword, header):
    url = f'https://search.51job.com/list/010000,000000,0000,00,9,99,{keyword},2,{page}.html?'
    response = requests.get(url, verify=False, headers=header)
    if response.status_code == 200:
        response.encoding = response.apparent_encoding
        return response.text


def parse_html(html):
    data = etree.HTML(html)
    table_list = data.xpath("//div[@class='dw_table']/div[@class='el']")
    datas = []
    for info in table_list:

        name = info.xpath('p//a/text()')  # 职位名称
        comn = info.xpath('span/a/text()')  # 公司名称
        region = info.xpath('span[@class="t3"]/text()')  # 地区
        salary = info.xpath('span[@class="t4"]/text()')  # 薪资
        times = info.xpath('span[@class="t5"]/text()')  # 日期
        rest = []
        if name:
            rest.append(name[0].strip())
            rest.append(comn[0].strip())
            rest.append(region[0].strip())
            if salary == []:
                rest.append('面议')
            else:
                rest.append(salary[0].strip())
            rest.append(times[0].strip())



            print(name[0].strip(), comn[0].strip(), region[0].strip(), salary, times[0].strip())
        datas.append(rest)
    return datas


def save_data(data,filename='python'):
    with open(f'{filename}.csv', 'a', encoding='utf-8', newline='')as f:
        wo = csv.writer(f)
        for i in data:
            wo.writerow(i)



if __name__ == '__main__':
    """
    
    """
    ua = UserAgent()
    header = {
        "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
        "Accept-Language": "zh-CN,zh;q=0.9",
        "Cache-Control": "no-cache",
        "Connection": "keep-alive",
        "Host": "search.51job.com",
        "Referer": "https://www.51job.com/",
        "User-Agent": ua.random
        }
    keyword = input('请输入您要查询的岗位：')
    page = int(input('请输入要获取的页数：'))
    for i in range(1, page+1):
        print(f'开始爬取第{i}页')
        html = get_html(i, keyword, header)
        time.sleep(1.1)
        datas = parse_html(html)
        save_data(datas,keyword)

本文地址：https://blog.csdn.net/weixin_40594668/article/details/107271239

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

CSS3 | 样式和优先级

css3一般介绍：CSS注释：/*CSS*/CSS长度单位：1.px（像素）2.em（倍数，一般用于文字）一、H... [阅读全文]
Web APP Index CSS 代码-立哥开发

// Copy right 2020 Jacky Zong .Version 1.7// All rights ... [阅读全文]
南宁小程序开发,挑战百日学习计划第43天(拖拉登录框的写法)

南宁小程序开发：www.zkelm.com今天的主题是做一个移动的登录model框，支持移动拖放！1.首... [阅读全文]
Html和CSS总结

1、HTML介绍超文本标记语言后缀 .html 或者 .htm作用：写网页结构内容2、DOCTYPE的作用文... [阅读全文]
HTML与CSS常见问题解决方式以及重点内容归类

HTML与CSS常见问题解决方式及重点内容归类一、快速生成标签的快捷写法归类（TAB键）：E：标签本身E>... [阅读全文]
让盒子水平居中解决方法！！！---（块元素，行内元素，行内块，文本）

如何让盒子水平居中在开发中我们会经常需要让一个盒子进行水平居中来达到某种效果，水平居中也是我们在开发中用到最多的... [阅读全文]
音频/视频进度条

实现一个简单的进度条，样式写的有点丑。。。可以根据自己喜好改一下，下面是源码<!DOCTYPE html&... [阅读全文]
CSS踩坑-------transform:scale(‘数字’)

transform:scale(‘数字’)今天进行HTML页面格式修改大致代码如下：<style type... [阅读全文]
DB旅游生态系统-03-日志管理-客户端代码实现

客户端页面事件分析客户端页面流转分析图当用户点击首页日志管理时，其页面流转分析如图-8所示：日志列表信息呈现业务... [阅读全文]
Html 初识

<!DOCTYPE html><html><head><meta ch... [阅读全文]

网友评论


验证码：

51job-爬虫

2020年07月11日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论