基于随机森林的信用卡欺诈检测实战 | 极客日志

PythonAI算法

基于随机森林的信用卡欺诈检测实战

信用卡欺诈检测面临数据不平衡及实时性挑战。通过 Python 结合 Pandas 与 Scikit-learn 实现随机森林模型。步骤涵盖数据加载、不平衡比例分析、特征相关性热力图绘制、训练测试集划分及多指标评估。实验表明，即便在原始不平衡数据下，随机森林仍能获得较高准确率与 F1 分数，为后续引入重采样技术奠定基础。

漫步发布于 2025/2/5更新于 2026/7/2628 浏览

基于随机森林的信用卡欺诈检测实战

本案例旨在识别欺诈性信用卡交易，防止用户因未授权消费产生损失。在实际业务场景中，这类问题通常面临几个核心挑战：

数据量大且实时性要求高：每日交易海量，模型需快速响应。
样本极度不平衡：正常交易占比约 99.8%，欺诈样本稀缺。
数据隐私限制：敏感数据难以公开获取。
标注噪声：并非所有欺诈行为都会被上报，存在漏报。
对抗适应性：欺诈手段会随模型调整而进化。

针对上述难点，我们的策略是选用轻量级且高效的模型，通过降维保护隐私，并采用更可靠的训练源进行双重校验。同时，保持模型的可解释性，以便在检测到异常模式时能快速迭代部署新模型。

环境准备与数据加载

示例代码基于 Jupyter Notebook 环境编写。首先导入必要的分析库：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib import gridspec

读取数据后，我们先查看前几行以了解结构：

data = pd.read_csv("credit.csv")
data.head()

数据概览与不平衡分析

查看数据形状和描述性统计信息：

print(data.shape)
print(data.describe())

我们需要重点关注类别分布。计算欺诈样本的比例：

fraud = data[data['Class'] == 1]
valid = data[data['Class'] == 0]
outlierFraction = len(fraud)/float(len(valid))
print(outlierFraction)
print('Fraud Cases: {}'.format(len(data[data['Class'] == 1])))
print('Valid Transactions: {}'.((data[data[] == ]])))

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

print("Amount details of the fraudulent transaction")
print(fraud.Amount.describe())

print("details of valid transaction")
print(valid.Amount.describe())

corrmat = data.corr()
fig = plt.figure(figsize=(12, 9))
sns.heatmap(corrmat, vmax=.8, square=True)
plt.show()

X = data.drop(['Class'], axis=1)
Y = data["Class"]
xData = X.values
yData = Y.values

from sklearn.model_selection import train_test_split
xTrain, xTest, yTrain, yTest = train_test_split(
    xData, yData, test_size=0.2, random_state=42)

from sklearn.ensemble import RandomForestClassifier
rfc = RandomForestClassifier()
rfc.fit(xTrain, yTrain)
yPred = rfc.predict(xTest)

from sklearn.metrics import classification_report, accuracy_score
from sklearn.metrics import precision_score, recall_score
from sklearn.metrics import f1_score, matthews_corrcoef
from sklearn.metrics import confusion_matrix

n_outliers = len(fraud)
n_errors = (yPred != yTest).sum()
print("The model used is Random Forest classifier")

acc = accuracy_score(yTest, yPred)
print("The accuracy is {}".format(acc))

prec = precision_score(yTest, yPred)
print("The precision is {}".format(prec))

rec = recall_score(yTest, yPred)
print("The recall is {}".format(rec))

f1 = f1_score(yTest, yPred)
print("The F1-Score is {}".format(f1))

MCC = matthews_corrcoef(yTest, yPred)
print("The Matthews correlation coefficient is{}".format(MCC))

LABELS = ['Normal', 'Fraud']
conf_matrix = confusion_matrix(yTest, yPred)
plt.figure(figsize=(12, 12))
sns.heatmap(conf_matrix, xticklabels=LABELS, 
            yticklabels=LABELS, annot=True, fmt="d")
plt.title("Confusion matrix")
plt.ylabel('True class')
plt.xlabel('Predicted class')
plt.show()

基于随机森林的信用卡欺诈检测实战

基于随机森林的信用卡欺诈检测实战

环境准备与数据加载

数据概览与不平衡分析

更多推荐文章

相关免费在线工具

特征相关性分析

模型训练与评估

更多推荐文章

相关免费在线工具

基于随机森林的信用卡欺诈检测实战

基于随机森林的信用卡欺诈检测实战

环境准备与数据加载

数据概览与不平衡分析

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

特征相关性分析

模型训练与评估

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具