当前位置：移动技术网 > IT编程>脚本编程>Python > 小案例:用Pandas分析招聘网Python岗位信息

小案例:用Pandas分析招聘网Python岗位信息

2020年07月11日 | 移动技术网IT编程 | 我要评论

1. 读取数据

import pandas as pd
import numpy as np
df = pd.read_csv('data/Jobs.csv')
df.head(2)

# 总数
len(df)

2. 新增city字段

df['job_area'].unique()

array(['深圳·南山区', '深圳·龙岗区', '深圳', '深圳·福田区', '深圳·光明区', '深圳·龙华区', '深圳·宝安区',
       'job_area', '北京', '北京·朝阳区', '北京·海淀区', '北京·通州区', '北京·东城区', '北京·丰台区',
       '北京·大兴区', '北京·昌平区', '北京·西城区', '上海', '上海·杨浦区', '上海·浦东新区', '上海·徐汇区',
       '上海·长宁区', '上海·青浦区', '上海·静安区', '上海·普陀区', '上海·黄浦区', '上海·闵行区',
       '上海·虹口区', '上海·松江区', '广州·增城区', '广州·黄埔区', '广州·越秀区', '广州·番禺区',
       '广州·天河区', '广州', '广州·海珠区', '广州·荔湾区', '广州·白云区'], dtype=object)

def extract_city(job_area):
    if '深圳' in job_area:
        return '深圳'
    elif '广州' in job_area:
        return '广州'
    elif '北京' in job_area:
        return '北京'
    elif '上海' in job_area:
        return '上海'
    else:
        return None
    
extract_city('上海-静安区')

'上海'

df['job_area'].apply(extract_city)

0      深圳
1      深圳
2      深圳
3      深圳
4      深圳
       ..
351    广州
352    广州
353    广州
354    广州
355    广州
Name: job_area, Length: 356, dtype: object

df['city']=df['job_area'].apply(extract_city)
df.head(2)

3. 三个字段公用一个apply函数

salary
experience
population

步骤:

正则表达式抽取出数字列表
求均值

import re

text = '300-1000人'

def avg(text):
    nums = re.findall('\d+', text)
    nums = [float(x) for x in nums]
    if nums:
        return np.mean(nums)
    else:
        return 0

    
avg('300-1000人')

650.0

4. 薪资

salary

df['new_salary'] = df['salary'].apply(avg)
df.head(2)

5. 工作年限

experience

df['experience'].apply(avg)

0      2.0
1      4.0
2      0.0
3      7.5
4      4.0
      ...
351    4.0
352    2.0
353    6.0
354    4.0
355    0.0
Name: experience, Length: 356, dtype: float64

df['new_experience'] = df['experience'].apply(avg)
df.head(2)

6. 员工人数

population

df['population'].apply(avg)

0      10000.0
1      10000.0
2      10000.0
3      10000.0
4      10000.0
        ...
351      299.5
352       59.5
353       59.5
354      299.5
355       10.0
Name: population, Length: 356, dtype: float64

df['new_population'] = df['population'].apply(avg)
df.head(2)

7. 教育

设计一个函数，出现正规学历，返回True(包括”不限“)
使用逻辑索引，把正规学历的招聘信息都保留

df['edu'].unique()

array(['本科', '博士', '硕士', '大专', '不限', 'edu', '6个月', '3个月', '7个月', '4天/周'],
      dtype=object)

def edu_bool(level):
    if level in ['本科', '博士', '硕士', '大专', '不限']:
        return True
    else:
        return False
    
edu_bool('博士')

True

df['Edu_bool'] =  df['edu'].apply(edu_bool)
df.head(2)

# 逻辑索引
new_df = df[df['Edu_bool']==True]
new_df.head(2)

8. 城市/薪酬关系

city/salary

会用到df.groupby

new_df.groupby('city').mean()

9. 学历/薪酬关系

edu/salary

会用到df.groupby

new_df.groupby('edu').mean()

10. 城市/学历/薪酬关系

透视表

pd.pivot_table(df, index, columns, values, aggfunc, margins)

pd.pivot_table(new_df, 
               index='city', 
               columns='edu', 
               values='new_salary', 
               aggfunc=np.mean, 
               margins=True)

- END -

往期文章

小案例: Pandas的apply方法 
用Python绘制近20年地方财政收入变迁史视频

Python语法快速入门
Python网络爬虫与文本数据分析
读完本文你就了解什么是文本分析 
文本分析在经管领域中的应用概述
综述:文本分析在市场营销研究中的应用
从记者的Twitter关注看他们稿件的党派倾向？

Pandas时间序列数据操作
70G上市公司定期报告数据集
文本数据清洗之正则表达式
shreport库: 批量下载上海证券交易所上市公司年报
Numpy和Pandas性能改善的方法和技巧
漂亮~pandas可以无缝衔接Bokeh
YelpDaset: 酒店管理类数据集10+G
半个小时学会Markdown标记语法

后台回复关键词【岗位分析】下载代码和数据

点击左下角可直达B站本文的视频讲解

- END -

本文地址：https://blog.csdn.net/weixin_38008864/article/details/107148086

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

基于Python的聊天室

本项目是一个在线的聊天室项目，主要运用了python的tkinter图形库、threading多线程库，以及so... [阅读全文]
python使用HTMLTestRunner生成测试报告

文章目录1.下载2.使用3.初次使用报错4.报告demo1.下载HTMLTestRunner下载路径https:... [阅读全文]
手动实现RGB图像转灰度图像（python）

RGB转灰度图# -*- coding: utf-8 -*-"""Created on Sat Jul 11 1... [阅读全文]
leetcode 622. design-circular-queue 设计循环队列 python3

时间：2020-7-11题目地址：https://leetcode-cn.com/problems/design... [阅读全文]
一款简洁的python开发工具--MU

对于入门新手来说，MU是一款简介易用的python编辑器，它自带一些我们常用的函数包，对于一些不想安装大型编辑器... [阅读全文]
黑马python基础班---day06

#：面向对象# 类名：使用大驼峰命名法# 1：定义一个基本类class People(object): d... [阅读全文]
Python爬虫自动爬取拉钩教育课程文章并保存成PDF

背景：前段时间写了一篇Python爬虫爬取拉钩教育视频的博客，有朋友留言说改写下爬取文章，今天有空改了改…爬取视... [阅读全文]
日知录（五）：python面对对象编程

OOP理解OOP的想法终于到这个part了，如何面对对象编程呢？来一个高大上的定义：面向对象编程——Object... [阅读全文]
安装labelImg以及遇到的问题

直接下载labelImg.exe遇到的问题：双击打开只有黑色终端并闪退环境：win10 python3.7百度后... [阅读全文]
python运算表

Python运算表操作结果x + yx 加 yx - yx 减 yx * yx 乘 yx / yx 除以 yx ... [阅读全文]