python工具集pandas处理数据使用介绍_Python

python工具集pandas处理数据使用介绍

最近在处理数据的时候了解了一个超好用的工具集pandas，这篇笔记是对在pandas中用到的内容进行记录，防止遗忘。

1.学习背景

已有的分类数据集存在样本不均衡的情况，对数据集进行处理。

2.做测试集

打开.csv文件

filename_list = pd.read_csv('path', header=None)[0]

注：这里的路径要写到要打开的文件名。

看该文件中数据的行数

print(len(filename_list))

提取数据做成DataFrame形式，为后续筛选做准备

labels = [] for i in tqdm(filename_list): t = re.findall(r"\d+\.?\d*", i) labels.append(t) temp = np.array(labels) df = pd.DataFrame(temp, columns=["A", "B", "C", "D"])

筛选符合条件的数据

df_sub1 = filename_list[df['A'] == '1']

将符合条件的数据写入文件

# 1. 创建文件对象 f = open('test.csv', 'w', encoding='utf-8', newline='') # 2. 基于文件对象构建 csv写入对象 csv_writer = csv.writer(f) # 4. 写入csv文件内容 for j in df_sub1.values: csv_writer.writerow([j]) # 5. 关闭文件 f.close()

3.做训练集

注：
1. 这1步用的方法比较笨，没有找到两个.csv文件相减的方法，后面如果有时间需要做一做。（这里是逐渐挑选判断+两个DataFrame融合的方法）
2. 采样目前用的是随机抽取，简单粗暴的让每个类别基础数据相等的方法。后面有时间可以学习下SMOTE算法（在数据没有这么多的情况下，增加数量少的那一种样本）+基于DataFrame数据集分割的欠采样（用不同的数据训练多次，最终取参数的平均值）。

采样

pdtys2 = pdty2.sample(n=40000)

融合（合并）

df_subtest = pd.merge(df_sub5, df_sub10, how="outer") train1 = pd.concat([df_sub1,df_sub2,df_sub3, ], axis=0)

注：1.pd.merge（）2.pd.concat（）对象数量和结果有区别，建议两个进行融合选择merge。

本文地址：https://blog.csdn.net/Y2398Y/article/details/108870550

您可能感兴趣的文章:

如您对本文有疑问或者有任何想说的，请点击进行留言回复，万千网友为您解惑！

Python 进行 OCR识别 -- pytesseract库

pip install pytesseract 报错：tesseract is not installed or it's not in your ... [阅读全文]

python中模块的__all__属性详解

python模块中的__all__属性，可用于模块导入时限制，如： from module import * 此时被导入... [阅读全文]

matplotlib 绘制梯度下降求解过程

机器学习过程中经常需要可视化，有助于加强对模型和参数的理解。下面对梯度下降过程进行动图演示，可以修改不同的学习率... [阅读全文]

Python的Flask框架中实现登录用户的个人资料和头像的教程

用户资料页面在用户资料页面，基本上没有什么特别要强调和介绍的新概念。只需要创建一个含有html的新视图函数模板页面即可。下面... [阅读全文]

基于scrapy的redis安装和配置方法

在定向爬虫的制作过程中，使用分布式爬取技术可以显著提高爬取效率。而 Redis 配合 Scrapy 是实现分布式爬取的基础。 Re... [阅读全文]

Python中defaultdict与lambda表达式用法实例小结

本文实例讲述了Python中defaultdict与lambda表达式用法。分享给大家供大家参考，具体如下：从教程中看到defa... [阅读全文]

python初学笔记(2)

文件处理：读文件： f1 = file("d:\\document_classification\\sports_urlfi... [阅读全文]

Python常见异常分类与处理方法

Python常见异常类型大概分为以下类： 1.AssertionError：当assert断言条件为假的时候抛出的异常 2.At... [阅读全文]

Python的条件表达式和lambda表达式实例

条件表达式条件表达式也称为三元表达式，表达式的形式：x if c else y。流程是：如果c为真，那么执行x，否则执行y。 ... [阅读全文]

python实现socket客户端和服务端简单示例

复制代码代码如下:import socket#socket通信客户端def client(): ... [阅读全文]


验证码：

验证码：

python工具集pandas处理数据使用介绍

2020年09月29日 | 移动技术网IT编程 | 我要评论

1.学习背景

2.做测试集

注：这里的路径要写到要打开的文件名。

3.做训练集

您可能感兴趣的文章:

相关文章:

网友评论