当前位置：移动技术网 > IT编程>脚本编程>Python > 我的爬虫自学之旅

我的爬虫自学之旅

2018年09月26日 | 移动技术网IT编程 | 我要评论

极限挑战0816,姜异康姜大明,南京理工大学图书馆

电子版参考书：https://pan.baidu.com/s/15r08yejldj8fxrbwnuatya 注：仅限网上学习交流，如有侵权请联系我

我们一起学习┏(＾0＾)┛

自我介绍，我是一个python迈过基础游荡在爬虫自学之路的一只小蚂蚁。在计算机编程漫长枯燥的道路上，很多技术博客帮助了我，心怀感激，想把自己的经历也记录下来，这是我的第一篇博客，如有瑕疵请多包涵，谢谢~对了，如果你也是自学入门的，来试试hackerrank.com，我只是需要一个队友~你会有不一样的感受的^_^

安装第三方库经常报错：error: microsoft visual c++ 14.0 is required. get it with "microsoft visual c++ build tools": http://landinghub.visualstudio.com/visual-cpp-build-tools

下载：https://download.microsoft.com/download/5/f/7/5f7acaeb-8363-451f-9425-68a90f98b238/visualcppbuildtools_full.exe?fixforie=.exe. 安装挺久，但一劳永逸有木有哈哈？

安装selenium，chromedriver.exe地址：http://chromedriver.storage.googleapis.com/?path=2.41/（）

我的是windows系统，文件放在python/scripts目录下，不用配置环境变量。本文只用chrome爬虫。

照教程爬了猫眼排行榜还是啥也不懂的我，接了朋友给的艰巨任务：智联招聘（【内牛满面】）

所学库不多，但好歹迈出了第一步。对代码运行结果也有困惑，希望交流~

from urllib.parse import urlencode
import requests
import json
import csv
import time


def get_one_page(page):
    headers = {
        'user-agent': 'mozilla/5.0 (windows nt 10.0; win64; x64) applewebkit/537.36 (khtml, like gecko) chrome/69.0.3497.100 safari/537.36'
    }
    params = {
        'start': '',
        'pagesize': '60',
        'cityid': '489',
        'workexperience': '-1',
        'education': '-1',
        'companytype': '-1',
        'employmenttype': '-1',
        'jobwelfaretag': '-1',
        'kw': '数据分析师',
        'kt': '3',
        'lasturlquery': {"p": page,
                         "pagesize": "60",
                         "jl": "489",
                         "kw": "数据分析师",
                         "kt": "3"
                         }
    }
    base_url = 'https://fe-api.zhaopin.com/c/i/sou?'
    url = base_url + urlencode(params)
    # print(url)

    response = requests.get(url, headers=headers)
    try:
        if response.status_code == 200:
            return response.json()
    except exception as e:
        print('error:', e)


@get_one_page
def func(page):
    if page == 0:
        get_one_page().params.pop('start')
        get_one_page().params['lasturlquery'].pop('p')
    else:
        get_one_page().params['start'] = 60 * (page - 1)
    return get_one_page()


def parse_page(json):
    if json.get('data'):
        data = json.get('data').get('results')
        data_list = []
        for item in data:
            job_name = item.get('jobname')
            salary = item.get('salary')
            company = item.get('company').get('name')
            welfare = item.get('welfare')
            city = item.get('city').get('name')
            work = item.get('workingexp').get('name')
            edu_level = item.get('edulevel').get('name')
            data_list.append([job_name, company, welfare, salary, city, work, edu_level])
        print(data_list)
        return data_list


def save_data(datas):
    with open('data_zhilian_findjob.csv', 'w') as csvfile:
        writer = csv.writer(csvfile)
        writer.writerow(['job_name', 'company', 'welfare,salary', 'city', 'workingexp', 'edu_level'])
        for row in datas:
            writer.writerow(row)


def main():
    for page in range(20):
        json = get_one_page(page)
        data = parse_page(json)
        # print(data)
        time.sleep(0.8)
        save_data(data)


if __name__ == '__main__':
    main()

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

python如何查看网页代码

用python查看网页代码的方法：1、使用“import”导入requests包import requests2、使用requests包的get()函数通过网页... [阅读全文]
Python如何用wx模块创建文本编辑器

用python的wx模块创建文本编辑器的方法：1、设置按钮的位置import wxapp = wx.app()win = wx.frame(none,title... [阅读全文]
python如何保存文本文件

python保存文本文件的方法：使用python内置的open()类可以打开文本文件，向文件里面写入数据可以用write()函数，写完之后，使用close()函... [阅读全文]
python如何编写win程序

python可以编写win程序。win程序的格式是exe，下面我们就来看一下使用python编写exe程序的方法。编写好python程序后py2exe模块即可将... [阅读全文]
Python替换NumPy数组中大于某个值的所有元素实例

我有一个2d(二维) numpy数组，并希望用255.0替换大于或等于阈值t的所有值。据我所知，最基础的方法是：shape = arr.shaperesult ... [阅读全文]
使用Numpy对特征中的异常值进行替换及条件替换方式

原始数据为excel文件，由传感器获得，通过pyhton xlrd模块读入，读入后为数组形式，由于其存在部分异常值和缺失值，所以便利用numpy对其中的异常值进... [阅读全文]
Python 实现将numpy中的nan和inf,nan替换成对应的均值

nan：not a numberinf：infinity;正无穷numpy中的nan和inf都是float类型t!=t 返回bool类型的数组(矩阵)np.co... [阅读全文]
给ubuntu18安装python3.7的详细教程

参考文章准备工作安装工具sudo apt updatesudo apt upgradesudo apt install gccsudo apt install ... [阅读全文]
python爬虫把url链接编码成gbk2312格式过程解析

1. 问题　　抓取某个网站，发现请求参数是乱码格式，这是点击 textview，发现请求参数如下图所示3. 那么=%b9%fa%ce%f1%d4%ba%b7%a... [阅读全文]
pyecharts在数据可视化中的应用详解

使用pyecharts进行数据可视化安装 pip install pyecharts也可以在pycharm软件里进行下载pyecharts库包。下载成功后进行查... [阅读全文]

网友评论


验证码：

我的爬虫自学之旅

2018年09月26日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论