用 Prompt 进行数据清洗：缺失值与异常值自动标注

用 Prompt 进行数据清洗：缺失值与异常值自动标注 | 极客日志

请处理以下 CSV 格式的客户数据，完成缺失值标注： 
1. 数据内容： 
客户 ID,姓名，年龄，手机号，注册时间 
1001，张三，28,13800138000,2024-01-05 
1002,,35,,2024-02-10 
1003，李四,,13900139000, 
1004，王五，42,13700137000,2024-03-18 
2. 标注规则： 
- 识别'姓名''年龄''手机号''注册时间'字段中的缺失值（空字符串视为缺失）； 
- 新增'缺失标注'列，用'字段名：缺失类型'格式标注（如'姓名：空字符串；手机号：空字符串'），无缺失则填'无'； 
3. 输出格式：保留原数据结构，新增'缺失标注'列，以 Markdown 表格形式呈现。

客户 ID	姓名	年龄	手机号	注册时间	缺失标注
1001	张三	28	13800138000	2024-01-05	无
1002		35		2024-02-10	姓名：空字符串；手机号：空字符串
1003	李四		13900139000		年龄：空字符串；注册时间：空字符串
1004	王五	42	13700137000	2024-03-18	无

请生成 Python 代码，对电商订单数据进行缺失值标注，需求如下： 
1. 数据来源：Excel 文件'order_data.xlsx'，数据包含'订单 ID''用户 ID''支付金额''支付时间''物流单号'字段； 
2. 业务规则： 
- '支付金额'字段中，0 值或空值视为'支付未完成'，需标注； 
- '支付时间'字段为空且'支付金额'>0 时，标注为'支付时间缺失（金额已存在）'； 
- '物流单号'字段为空且'支付时间'不为空时，标注为'待发货（物流单号未生成）'； 
3. 代码功能： 
- 读取 Excel 文件； 
- 新增'缺失标注'列，按上述规则填写标注内容，多缺失情况用'；'分隔； 
- 将清洗后的数据保存为新 Excel 文件'order_data_with_missing_label.xlsx'； 
4. 代码要求：使用 Pandas 库，添加关键步骤注释，处理可能的文件读取异常（如文件不存在）。

import pandas as pd
from pandas import ExcelWriter
import os

def label_missing_values(input_path, output_path):
    # 处理文件读取异常
    if not os.path.exists(input_path):
        raise FileNotFoundError(f"输入文件不存在：{input_path}")
    
    # 读取 Excel 数据
    df = pd.read_excel(input_path)
    
    # 初始化缺失标注列
    df["缺失标注"]="无"
    
    # 1. 标注支付金额缺失/异常（0 值或空值）
    payment_missing = (df["支付金额"].isna()) | (df["支付金额"]==0)
    df.loc[payment_missing,"缺失标注"] = df.loc[payment_missing,"缺失标注"].apply(
        lambda x: f"{x}；支付金额：支付未完成" if x != "无" else "支付金额：支付未完成"
    )
    
    # 2. 标注支付时间缺失（金额已存在）
    time_missing_with_payment = (df["支付时间"].isna()) & (df["支付金额"]>0)
    df.loc[time_missing_with_payment,"缺失标注"] = df.loc[time_missing_with_payment,"缺失标注"].apply(
        lambda x: f"{x}；支付时间：支付时间缺失（金额已存在）" if x != "无" else "支付时间：支付时间缺失（金额已存在）"
    )
    
    # 3. 标注物流单号缺失（已支付）
    logistics_missing_with_payment = (df["物流单号"].isna()) & (df["支付时间"].notna())
    df.loc[logistics_missing_with_payment,"缺失标注"] = df.loc[logistics_missing_with_payment,"缺失标注"].apply(
        lambda x: f"{x}；物流单号：待发货（物流单号未生成）" if x != "无" else "物流单号：待发货（物流单号未生成）"
    )
    
    # 保存清洗后的数据
    with ExcelWriter(output_path, engine="openpyxl") as writer:
        df.to_excel(writer, index=False, sheet_name="订单数据（含缺失标注）")
    print(f"数据清洗完成，已保存至：{output_path}")
    return df

# 调用函数（可根据实际路径修改）
if __name__ == "__main__":
    input_file = "order_data.xlsx"
    output_file = "order_data_with_missing_label.xlsx"
    label_missing_values(input_file, output_file)

请分析以下用户消费数据，完成异常值标注： 
1. 数据内容（CSV 格式）： 
用户 ID，月消费金额（元）,消费次数，会员等级 
U001,580,12,VIP3 
U002,-200,8,VIP2 
U003,15000,5,VIP1 
U004,320,0,VIP3 
U005,650,15, 
2. 异常值规则： 
- '月消费金额（元）'：<0 标注为'金额异常（负数）'，>10000 标注为'金额异常（超出常规范围）'； 
- '消费次数'：=0 且'会员等级'为 VIP3/VIP2 标注为'次数异常（会员无消费）'； 
- '会员等级'：空值标注为'等级异常（未填写）'； 
3. 输出要求： 
- 新增'异常标注'列，按规则标注异常类型，无异常填'无'； 
- 用 Markdown 表格展示结果，并在表格下方简要说明每个异常值的判断依据。

用户 ID	月消费金额（元）	消费次数	会员等级	异常标注
U001	580	12	VIP3	无
U002	-200	8	VIP2	金额异常（负数）
U003	15000	5	VIP1	金额异常（超出常规范围）
U004	320	0	VIP3	次数异常（会员无消费）
U005	650	15		等级异常（未填写）

现有电商订单表'orders'，存储在 MySQL 数据库中，表结构如下： 
order_id (订单 ID, 主键), user_id (用户 ID), create_time (下单时间，datetime), pay_time (支付时间，datetime), product_num (商品数量), total_price (总金额，decimal(10,2)) 
请生成 MySQL 语句，完成以下异常值标注： 
1. 异常规则： 
- 逻辑异常 1：pay_time < create_time（支付时间早于下单时间），标注为'时间异常：支付早于下单'； 
- 逻辑异常 2：product_num < 1（商品数量小于 1），标注为'数量异常：商品数量无效'； 
- 逻辑异常 3：total_price < 0（总金额为负数），标注为'金额异常：总金额为负'； 
2. SQL 要求： 
- 新增'abnormal_label'字段（VARCHAR(100)），用于存储异常标注； 
- 先初始化'abnormal_label'为'无异常'，再按上述规则更新异常标注（多异常用'；'分隔）； 
- 最后查询出所有存在异常的订单（abnormal_label != '无异常'），包含 order_id、user_id、abnormal_label 字段。

-- 1. 新增异常标注字段（若字段不存在）
ALTER TABLE orders ADD COLUMN IF NOT EXISTS abnormal_label VARCHAR(100) DEFAULT '无异常';

-- 2. 初始化异常标注字段为'无异常'
UPDATE orders SET abnormal_label = '无异常';

-- 3. 更新逻辑异常 1：支付时间早于下单时间
UPDATE orders SET abnormal_label = CASE 
    WHEN abnormal_label = '无异常' THEN '时间异常：支付早于下单' 
    ELSE CONCAT(abnormal_label, '；时间异常：支付早于下单') 
END WHERE pay_time < create_time;

-- 4. 更新逻辑异常 2：商品数量小于 1
UPDATE orders SET abnormal_label = CASE 
    WHEN abnormal_label = '无异常' THEN '数量异常：商品数量无效' 
    ELSE CONCAT(abnormal_label, '；数量异常：商品数量无效') 
END WHERE product_num < 1;

-- 5. 更新逻辑异常 3：总金额为负数
UPDATE orders SET abnormal_label = CASE 
    WHEN abnormal_label = '无异常' THEN '金额异常：总金额为负' 
    ELSE CONCAT(abnormal_label, '；金额异常：总金额为负') 
END WHERE total_price < 0;

-- 6. 查询所有异常订单
SELECT order_id, user_id, abnormal_label FROM orders WHERE abnormal_label != '无异常';

工具类型	适配方式	Prompt 示例片段
大语言模型（ChatGPT、Claude）	直接输入自然语言需求，提供数据样本或表结构，指定输出格式（表格、代码）	'请处理 CSV 数据，标注缺失值，输出 Markdown 表格'
数据工具（Excel、Power BI）	要求模型生成工具内置函数（如 Excel 公式），明确单元格范围或数据列	'生成 Excel 公式，对 A2:A100 列的缺失值标注'缺失'，公式结果填入 B 列'
编程工具（VS Code、Jupyter）	要求生成可执行代码（Python、SQL），指定库、函数名，处理异常情况	'用 Pandas 生成代码，读取 CSV 并标注异常值，处理 FileNotFoundError 异常'

用 Prompt 进行数据清洗：缺失值与异常值自动标注

用 Prompt 进行数据清洗：缺失值与异常值自动标注

一、数据清洗与 Prompt 的关联逻辑

二、缺失值自动标注的 Prompt 设计与实践

（一）缺失值标注的核心需求拆解

（二）不同场景的 Prompt 示例与效果

更多推荐文章

相关免费在线工具

示例 1：基础缺失值标注（返回清洗后数据）

示例 2：带业务逻辑的缺失值标注（生成 Python 代码）

（三）缺失值标注 Prompt 的优化技巧

三、异常值自动标注的 Prompt 设计与实践

（一）异常值标注的核心维度

（二）不同类型异常值的 Prompt 示例

示例 1：数值范围类异常值标注（返回标注结果）

示例 2：逻辑关联类异常值标注（生成 SQL 代码）

（三）异常值标注 Prompt 的避坑指南

四、Prompt 驱动数据清洗的工具适配与落地建议

（一）常用工具与 Prompt 适配方式

（二）落地时的关键注意事项

五、课后练习与思考题

（一）练习题

（二）思考题

（三）参考答案与思路点拨

更多推荐文章

相关免费在线工具

用 Prompt 进行数据清洗：缺失值与异常值自动标注

用 Prompt 进行数据清洗：缺失值与异常值自动标注

一、数据清洗与 Prompt 的关联逻辑

二、缺失值自动标注的 Prompt 设计与实践

（一）缺失值标注的核心需求拆解

（二）不同场景的 Prompt 示例与效果

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

示例 1：基础缺失值标注（返回清洗后数据）

示例 2：带业务逻辑的缺失值标注（生成 Python 代码）

（三）缺失值标注 Prompt 的优化技巧

三、异常值自动标注的 Prompt 设计与实践

（一）异常值标注的核心维度

（二）不同类型异常值的 Prompt 示例

示例 1：数值范围类异常值标注（返回标注结果）

示例 2：逻辑关联类异常值标注（生成 SQL 代码）

（三）异常值标注 Prompt 的避坑指南

四、Prompt 驱动数据清洗的工具适配与落地建议

（一）常用工具与 Prompt 适配方式

（二）落地时的关键注意事项

五、课后练习与思考题

（一）练习题

（二）思考题

（三）参考答案与思路点拨

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具