当前位置：移动技术网 > IT编程>脚本编程>Python > selenium爬取lagou

selenium爬取lagou

2019年07月08日 | 移动技术网IT编程 | 我要评论

麻师娘加盟,asp简介,王喜老婆

from selenium import webdriver
import time
from lxml import etree
import re


class lagouspider(object):

    def __init__(self):
        self.driver = webdriver.chrome()
        self.url = "https://www.lagou.com/jobs/list_python?px=default&city=%e5%85%a8%e5%9b%bd#filterbox"

    def run(self):
        self.driver.get(self.url)
        while true:
            source = self.driver.page_source
            self.parse_page_list(source)
            next_btn = self.driver.find_element_by_xpath("//div[@class='pager_container']/span[last()]")
            if "pager_next_disabled" in next_btn.get_attribute("class"):
                break
            else:
                next_btn.click()

    def parse_page_list(self, source):
        html = etree.html(source)
        detail_urls = html.xpath("//div/a[@class='position_link']/@href")
        for detail_url in detail_urls:
            self.get_detail_page(detail_url)
            time.sleep(1)

    def get_detail_page(self, detail_url):
        # self.driver.get(detail_url)
        # 新打开一个窗口
        self.driver.execute_script("window.open('%s')" % detail_url)
        self.driver.switch_to.window(self.driver.window_handles[1])
        source = self.driver.page_source
        self.parse_datail_page(source)
        # 关闭该窗口
        self.driver.close()
        # 继续切换回职位列表页
        self.driver.switch_to.window(self.driver.window_handles[0])

    def parse_datail_page(self, source):
        html = etree.html(source)
        job_name = html.xpath("//div[@class='job-name']/h2/text()")[0].strip()
        job_request_spans = html.xpath("//dd[@class='job_request']//span")
        job_salary = job_request_spans[0].xpath("./text()")[0].strip()
        city = job_request_spans[1].xpath("./text()")[0].strip()
        city = re.sub(r'[/\s]', '', city)
        work_year = job_request_spans[2].xpath("./text()")[0].strip()
        work_year = re.sub(r'[/\s]', '', work_year)
        education = job_request_spans[3].xpath("./text()")[0].strip()
        education = re.sub(r'[/\s]', '', education)
        company_name = html.xpath("//h3[@class='fl']//text()")[0].strip()
        desc = "".join(html.xpath("//dl[@id='job_detail']/dd[@class='job_bt']//text()")).strip()
        desc = re.sub(r'[/\s\\xa]', '', desc)
        position = {
            "name": job_name,
            "job_salary": job_salary,
            "city": city,
            "work_year": work_year,
            "education": education,
            "company_name": company_name,
            "desc": desc
        }
        print(position)


lagou = lagouspider()
lagou.run()

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

新手学习Python2和Python3中print不同的用法

在python2和python3中都提供print()方法来打印信息,但两个版本间的print稍微有差异主要体现在以下几个方面：1.python3中print是... [阅读全文]
Python基于os.environ从windows获取环境变量

安装python之后，我们往往面临这样一个问题，在命令行输入“python”，竟然出错，难道是没有安装成功吗？非也，其实是你的系统环境变量没有设置好。今天，小编... [阅读全文]
keras实现调用自己训练的模型,并去掉全连接层

其实很简单from keras.models import load_modelbase_model = load_model('model_resenet.h... [阅读全文]
python中def是做什么的

python使用def开始函数定义，紧接着是函数名，括号内部为函数的参数，内部为函数的具体功能实现代码，如果想要函数有返回值, 在expressions中的逻... [阅读全文]
Python xlwt模块使用代码实例

简介写入excle文档安装：pip3 install xlwt导入：import xlwtxlrd 模块方法写入案例import xlwt# 创建对象，设置编码... [阅读全文]
Keras之自定义损失(loss)函数用法说明

在keras中可以自定义损失函数，在自定义损失函数的过程中需要注意的一点是，损失函数的参数形式，这一点在keras中是固定的，须如下形式：def my_loss... [阅读全文]
Python xlrd模块导入过程及常用操作

简介读取excle文档，支持xls，xlsx格式安装：pip3 install xlrd导入：import xlrdxlrd 模块方法读取excelfile =... [阅读全文]
keras打印loss对权重的导数方式

notes怀疑模型梯度爆炸，想打印模型 loss 对各权重的导数看看。如果如果fit来训练的话，可以用keras.callbacks.tensorboard实现... [阅读全文]
keras 使用Lambda 快速新建层添加多个参数操作

keras许多简单操作，都需要新建一个层，使用lambda可以很好完成需求。# 额外参数def normal_reshape(x, shape): return... [阅读全文]
JAVA及PYTHON质数计算代码对比解析

java 实现class primenumber{public static void main(string[] args) {long start=syst... [阅读全文]

网友评论


验证码：

selenium爬取lagou

2019年07月08日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论