以下,先通过图来说明筛选的重要性:
如果没有对数据进行筛选:
由于里面有很多异常值,所以我们关心的取值区间就会被异常值遮盖,我们需要的是小于2.5的数据,因此,我们通过筛选,得到的图为:
上述两张图所采用的数据是相同的,只不过对数据集通过布尔值进行了筛选,代码如下:
df_sum=df_sum[df_sum[4]<=2.5]
灵感来自df[df.notnull()]是输出数列中不是空值的值,是输出了df[true]的所有值,因此我们可以考虑将所需的筛选条件写入df[ ]来实现数据筛选的功能
data=pd.Series([1,NA,3.5,NA,7])
print(data)
#
0 1.0
1 NA
2 3.5
3 NA
4 7.0
#
print(data[data.notnull()])
#
0 1.0
2 3.5
4 7.0
#
df_sum是数据集,[ ]中是df_sum[4]<2.5是df_sum表格的列索引为4的列数据要求小于2.5,判断为True,则将该结果赋值给df_sum实现数据筛选功能
本文地址:https://blog.csdn.net/fuck11111100/article/details/107413430
如对本文有疑问, 点击进行留言回复!!
python+selenium自动化(七)__键盘、鼠标操作及下拉框
File “<frozen importlib._bootstrap>“, line 219, in _call_with_frames_removed ValueError: source cod
网友评论