当前位置：移动技术网 > IT编程>脚本编程>Python > 机器学习——信用卡反欺诈案例

机器学习——信用卡反欺诈案例

2018年10月18日 | 移动技术网IT编程 | 我要评论

柯弯弯,有哪些h动漫,沫沫一休彩票1xcp

导入类库

 1 import numpy as np
 2 import pandas as pd
 3 from pandas import series, dataframe
 4 import matplotlib.pyplot as plt
 5 from sklearn.preprocessing import standardscaler
 6 from imblearn.over_sampling import smote
 7 from sklearn.ensemble import gradientboostingclassifier
 8 from sklearn.model_selection import train_test_split
 9 from sklearn.linear_model import logisticregression
10 from sklearn.metrics import confusion_matrix
11 import itertools
12 from sklearn.model_selection import gridsearchcv
13 from sklearn.metrics import auc, roc_curve

作图函数

 1 def plot_confusion_matrix(cm, classes,
 2                           title='confusion matrix',
 3                           cmap=plt.cm.blues):
 4     """
 5     this function prints and plots the confusion matrix.
 6     """
 7     plt.imshow(cm, interpolation='nearest', cmap=cmap)
 8     plt.title(title)
 9     plt.colorbar()
10     tick_marks = np.arange(len(classes))
11     plt.xticks(tick_marks, classes, rotation=0)
12     plt.yticks(tick_marks, classes)
13 
14     threshold = cm.max() / 2.
15     for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
16         plt.text(j, i, cm[i, j],
17                  horizontalalignment="center",
18                  color="white" if cm[i, j] > threshold else "black")  # 若对应格子上面的数量不超过阈值则，上面的字体为白色，为了方便查看
19 
20     plt.tight_layout()
21     plt.ylabel('true label')
22     plt.xlabel('predicted label')
23     plt.show()

数据获取与解析

数据为结构化数据，不需要抽特征转化，但特征time和amount的数据规格和其他特征不一样，需要对其做特征做特征缩放

1 credit = pd.read_csv('./creditcard.csv')
2 
3 print('原始行列 >>>>', credit.shape)  # (284807行, 31列)
4 # print(credit.head())  # 前5行
5 # print(credit.dtypes)  # 查看特征(列)类型。结果：数据类型只有float64和int64
6 # print(credit.isnull().any())    # 判断是否有缺失值。结果：无缺失值，方便后续处理
7 # print(credit.info())  # 查看数据集详细信息(类型，占用大小，缺失值，行列等)

特征工程

 1 # c_counts = credit['class'].value_counts()
 2 # print(c_counts, type(c_counts))  # 对class列分类统计,并判断类型
 3 # print(c_counts.index, c_counts.values)  # 提取索引和值
 4 '''
 5 结果：
 6 0    284315
 7 1       492
 8 name: class, dtype: int64
 9 name: class, dtype: int64 <class 'pandas.core.series.series'>
10 int64index([0, 1], dtype='int64') [284315    492]
11 '''
12 
13 # 对c_counts作图进行分析
14 # plt.figure(figsize=(10, 6))
15 # 饼图：两种作图方式
16 # ax = plt.subplot(121)
17 # c_counts是pandas的series类型，pandas可以使用plot快速作图
18 # c_counts.plot(kind='pie', autopct='%0.3f%%', ax=ax)
19 # plt.pie(c_counts, autopct='%0.3f%%')
20 
21 # 柱状图：两种作图方式
22 # ax = plt.subplot(122)
23 # c_counts.plot(kind='bar', ax=ax)
24 # plt.bar(c_counts.index, c_counts.values)
25 # plt.show()
26 '''
27 存在492例盗刷，占总样本的0.17%，
28 存在明显的数据类别不平衡问题，
29 可采用过采样(增加数据)的方法处理该问题
30 '''

特征转换

将时间从单位每秒化为单位每小时 divmod(7201,3600) 结果：(2, 1) 元组，2为商，1为余数

1 credit['time'] = credit['time'].map(lambda x: divmod(x, 3600)[0])
2 # print(credit['time'])  # map高级函数：将time中的每个元素作用于lambda函数

特征选择

 1 # class列中值为0的为true，值为1为false，生成的cond0行数不变
 2 # cond0 = credit['class'] == 0
 3 # class列中值为0的为false，值为1为true，生成的cond0行数不变
 4 # cond1 = credit['class'] == 1
 5 # print('cond0 >>>>', len(cond0))
 6 # print('cond1 >>>>', len(cond1))
 7 
 8 # 作图分析
 9 # credit['v1'][cond0].plot(kind='hist', bins=500)
10 # credit['v1'][cond1].plot(kind='hist', bins=50)
11 # plt.show()
12 
13 # 调试查看用
14 # print("credit['v1'] >>>>", credit['v1'])
15 # print('cond0 >>>>', cond0)
16 # print('cond1 >>>>', cond1)
17 
18 # 筛选出存在于v1列中且在cond0中为true的值(284315)
19 # print("credit['v1'][cond0] >>>>", credit['v1'][cond0])
20 # 筛选出存在于v1列中且在cond0中为true的值(492)
21 # print("credit['v1'][cond1] >>>>", credit['v1'][cond1])
22 
23 ''' 作图分析：将每一个特征根据class的真假进行划分， 图像中两种图形的重合度越大说明该特征对class的影响越小， 所以需要剔除掉无用的特征 '''
24 # cols = ['v1', 'v2', 'v3', 'v4', 'v5', 'v6', 'v7', 'v8', 'v9', 'v10',
25 #         'v11', 'v12', 'v13', 'v14', 'v15', 'v16', 'v17', 'v18', 'v19', 'v20',
26 #         'v21', 'v22', 'v23', 'v24', 'v25', 'v26', 'v27', 'v28']
27 # 作图：28行，1列，每一行显示一个特征对应的图
28 # plt.figure(figsize=(12, 2800))
29 # for i, col in enumerate(cols):
30 #     ax = plt.subplot(28, 1, i + 1)
31 # density(normed)标准化数据：将过大或过小的数据统一标准化
32 #     credit[col][cond0].plot(kind='hist', bins=500, density=true, ax=ax)
33 #     credit[col][cond1].plot(kind='hist', bins=50, density=true, ax=ax)
34 #
35 #     ax.set_title(col)
36 # plt.show()
37 
38 # 待剔除的列(10列)
39 drops = ['v13', 'v15', 'v20', 'v22', 'v23', 'v24', 'v25', 'v26', 'v27', 'v28']
40 # 删除指定列(axis=1按列，axis=0按行)
41 credit2 = credit.drop(labels=drops, axis=1)
42 print('人眼剔除无用列后 >>>>', credit2.shape)
43 ''' 不同变量在信用卡被盗刷和信用卡正常的不同分布情况， 选择在不同信用卡状态下的分布有明显区别的变量。 
因此剔除变量v13 、v15 、v20 、v22、 v23 、v24 、v25 、v26 、v27 和v28变量 '''

特征缩放

amount变量和time变量的取值范围与其他变量相差较大，所以要对其进行特征缩放

 1 # print('原amount数据最大值', credit2['amount'].max())
 2 # print('原amount数据最小值', credit2['amount'].min())
 3 # print('原time数据最大值', credit2['time'].max())
 4 # print('原time数据最小值', credit2['time'].min())
 5 
 6 # 创建标准化对象
 7 standscaler = standardscaler()
 8 cols = ['time', 'amount']
 9 # 标准化数据
10 credit2[cols] = standscaler.fit_transform(credit2[cols])
11 # print('标准化amount后最大值 >>>>', credit2['amount'].max())
12 # print('标准化amount后最小值 >>>>', credit2['amount'].min())
13 # print('标准化time后最大值 >>>>', credit2['time'].max())
14 # print('标准化time后最小值 >>>>', credit2['time'].min())

特征重要性排序

对特征的重要性进行排序，以进一步减少变量利用gbdt梯度提升决策树进行特征重要性排序

 1 # 创建gbdt对象
 2 # clf = gradientboostingclassifier()
 3 # 特征训练集：前20列
 4 # x_train = credit2.iloc[:, :-1]
 5 # print('x_train.shape >>>>', x_train.shape)
 6 # cols = x_train.columns
 7 # print('x_train.columns >>>>', x_train.columns)
 8 # 目标值训练集：class列
 9 # y_train = credit2['class']  # y_train = credit2.iloc[:,-1]
10 # print('y_train.shape >>>>', y_train.shape)
11 # 训练数据
12 # clf.fit(x_train, y_train)
13 # 得到特征重要性数据
14 # feature_importances_ = clf.feature_importances_
15 # print('feature_importances_ >>>>', feature_importances_)
16 # 从大到小对特征重要性进行排序，并作图分析
17 # argsort()：对数组排序并返回排序后每个元素对应的未排序时自身所在的索引
18 # index = feature_importances_.argsort()[::-1]
19 # print('从大到小排列特征重要性，返回每个元素的原索引 >>>>', index, len(index))
20 
21 # plt.figure(figsize=(12, 9))
22 # 柱状图，第二个参数代表按从大到小排列的特征数据
23 # plt.bar(np.arange(len(index)), feature_importances_[index])
24 # 柱状图x坐标：第二个参数是按特征值从大到小排列后的特征名
25 # plt.xticks(np.arange(len(index)), cols[index])
26 # plt.show()
27 # 根据图像得到要删除的特征列(最小的后9列)
28 drops = ['v7', 'v21', 'v8', 'v5', 'v4', 'v11', 'v19', 'v1', 'amount']
29 credit3 = credit2.drop(labels=drops, axis=1)
30 print('通过gbdt分析剔除无用列后 >>>>', credit3.shape)
31 # print('credit3.columns >>>>', credit3.columns)

模型训练

处理样本不平衡问题
目标变量“class”正常和被盗刷两种类别的数量差别较大，会对模型学习造成困扰。
举例来说，假如有100个样本，其中只有1个是被盗刷样本，
其余99个全为正常样本，那么学习器只要制定一个简单的方法：
即判别所有样本均为正常样本，就能轻松达到99%的准确率。
而这个分类器的决策对我们的风险控制毫无意义。
因此，在将数据代入模型训练之前，我们必须先解决样本不平衡的问题。
现对该业务场景进行总结如下：
过采样（oversampling）：
增加正样本使得正、负样本数目接近，然后再进行学习。
欠采样（undersampling）：
去除一些负样本使得正、负样本数目接近，然后再进行学习。 
本次处理样本不平衡采用的方法是过采样，
具体操作使用smote（synthetic minority oversampling technique），
smoet的基本原理是：
采样最邻近算法，计算出每个少数类样本的k个近邻，
从k个近邻中随机挑选n个样本进行随机线性插值，
构造新的少数样本，同时将新样本与原数据合成，产生新的训练集。

 1 # smote 过采样
 2 x = credit3.iloc[:, :-1]
 3 y = credit3.class
 4 x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3)
 5 x_train,y_train 作为训练数据 训练时，保证样本均衡，将x_train和y_train样本过采样处理 测试时候，可以样本不均衡
 6 # print('未均衡的y训练集分类统计(class) >>>>', y_train.value_counts())
 7 
 8 smote = smote()
 9 # ndarray
10 x_train_new, y_train_new = smote.fit_sample(x_train, y_train)
11 # print('均衡后的x训练集 >>>>', x_train_new, type(x_train_new))
12 # print('均衡后的y训练集(class) >>>>', y_train_new, type(y_train_new), len(y_train_new))
13 # y_train_new类型为numpy.ndarray，需转化为pandas.series类型才可分类统计
14 # print('均衡后的y训练集分类统计(class) >>>>', series(y_train_new).value_counts())

求召回率

单独的逻辑回归求得查全率recall rate,recall也叫召回率

 1 # 创建逻辑回归对象
 2 # logistic = logisticregression()
 3 # print(logistic)
 4 '''
 5 logisticregression(c=1.0, class_weight=none, dual=false, fit_intercept=true,
 6           intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
 7           penalty='l2', random_state=none, solver='liblinear', tol=0.0001,
 8           verbose=0, warm_start=false)
 9 '''
10 # 训练均衡后的数据
11 # logistic.fit(x_train_new, y_train_new)
12 # 预测
13 # y_ = logistic.predict(x_test)
14 # print('y_test >>>>', y_test)
15 # print('预测的y_ >>>>', y_)
16 # 交叉表
17 # print('交叉表 >>>>', pd.crosstab(y_test, y_, margins=true))
18 
19 # 混合矩阵
20 # cm = confusion_matrix(y_test, y_)
21 # print('混合矩阵 >>>>', cm, type(cm))
22 # recall------“正确被检索的正样本item(tp)"占所有"应该检索到的item(tp+fn)"的比例
23 # plot_confusion_matrix(cm, [0, 1], title='recall:%0.3f' % (cm[1, 1] / (cm[1, 0] + cm[1, 1])))

交叉验证与调优

 1 logistic = logisticregression()
 2 clf = gridsearchcv(logistic, param_grid={'tol': [1e-3, 1e-4, 1e-5], 'c': [1, 0.1, 10, 100]}, cv=10, iid=false, n_jobs=1)
 3 print(clf.fit(x_train_new, y_train_new))
 4 # print('best_score_ >>>>', clf.best_score_)
 5 # print('best_params_ >>>>', clf.best_params_)
 6 # print('best_index_ >>>>', clf.best_index_)
 7 # print('best_estimator_ >>>>', clf.best_estimator_)
 8 
 9 # 预测
10 # y3_ = clf.best_estimator_.predict(x_test)
11 # print('y3_预测(best_estimator_) >>>>', confusion_matrix(y_test, y3_))
12 
13 # y2_ = clf.predict(x_test)
14 # print('y2_预测 >>>>', confusion_matrix(y_test, y2_))
15 
16 # cm2 = confusion_matrix(y_test, y2_)
17 
18 # 可视化，对比逻辑斯蒂回归和gridsearchcv结果
19 # plot_confusion_matrix(cm, [0, 1], title='logistic recall:%0.3f' % (cm[1, 1] / (cm[1, 0] + cm[1, 1])))
20 # plot_confusion_matrix(cm2, [0, 1], title='gridsearchcv recall:%0.3f' % (cm2[1, 1] / (cm2[1, 0] + cm2[1, 1])))

模型评估

解决不同的问题，通常需要不同的指标来度量模型的性能。
例如我们希望用算法来预测癌症是否是恶性的，
假设100个病人中有5个病人的癌症是恶性， 
对于医生来说，尽可能提高模型的查全率（recall）比提高查准率（precision）更为重要，
因为站在病人的角度，发生漏发现癌症为恶性比发生误 判为癌症是恶性更为严重
由此可见就上面的两个算法而言，明显lgb过拟合了，
考虑到样本不均衡问题，
故应该选用简单一点的算法（逻辑回归）来减少陷入过拟合的陷阱

1 y_proba = clf.predict_proba(x_test)
2 # 预测被盗刷的概率
3 print(y_proba)

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

新手学习Python2和Python3中print不同的用法

在python2和python3中都提供print()方法来打印信息,但两个版本间的print稍微有差异主要体现在以下几个方面：1.python3中print是... [阅读全文]
Python基于os.environ从windows获取环境变量

安装python之后，我们往往面临这样一个问题，在命令行输入“python”，竟然出错，难道是没有安装成功吗？非也，其实是你的系统环境变量没有设置好。今天，小编... [阅读全文]
keras实现调用自己训练的模型,并去掉全连接层

其实很简单from keras.models import load_modelbase_model = load_model('model_resenet.h... [阅读全文]
python中def是做什么的

python使用def开始函数定义，紧接着是函数名，括号内部为函数的参数，内部为函数的具体功能实现代码，如果想要函数有返回值, 在expressions中的逻... [阅读全文]
Python xlwt模块使用代码实例

简介写入excle文档安装：pip3 install xlwt导入：import xlwtxlrd 模块方法写入案例import xlwt# 创建对象，设置编码... [阅读全文]
Keras之自定义损失(loss)函数用法说明

在keras中可以自定义损失函数，在自定义损失函数的过程中需要注意的一点是，损失函数的参数形式，这一点在keras中是固定的，须如下形式：def my_loss... [阅读全文]
Python xlrd模块导入过程及常用操作

简介读取excle文档，支持xls，xlsx格式安装：pip3 install xlrd导入：import xlrdxlrd 模块方法读取excelfile =... [阅读全文]
keras打印loss对权重的导数方式

notes怀疑模型梯度爆炸，想打印模型 loss 对各权重的导数看看。如果如果fit来训练的话，可以用keras.callbacks.tensorboard实现... [阅读全文]
keras 使用Lambda 快速新建层添加多个参数操作

keras许多简单操作，都需要新建一个层，使用lambda可以很好完成需求。# 额外参数def normal_reshape(x, shape): return... [阅读全文]
JAVA及PYTHON质数计算代码对比解析

java 实现class primenumber{public static void main(string[] args) {long start=syst... [阅读全文]

网友评论


验证码：

机器学习——信用卡反欺诈案例

2018年10月18日 | 移动技术网IT编程 | 我要评论

导入类库

作图函数

数据获取与解析

特征工程

特征转换

特征选择

特征缩放

特征重要性排序

模型训练

求召回率

交叉验证与调优

模型评估

您可能感兴趣的文章:

相关文章:

网友评论