Prompt 驱动的 ETL 流程自动化实战指南

在数据驱动决策的时代，ETL（Extract-抽取、Transform-转换、Load-加载）作为数据管道的核心环节，直接决定了数据从原始状态到可用资产的转化效率。传统 ETL 流程依赖工程师编写大量代码（如 SQL、Python）、配置复杂工具，往往面临技术门槛高、迭代效率低、场景适配难三大痛点。

而利用自然语言指令定义 ETL 规则，让大语言模型（LLM）自动生成处理逻辑或代码，能从根本上解决上述问题。本文将聚焦这一模式的核心价值，分阶段详解抽取、转换、加载的 Prompt 设计逻辑与实战案例，并提供完整代码模板，助力实现自然语言驱动的 ETL 自动化转型。

一、核心价值：为什么用 Prompt 做 ETL？

降本提效：将搭建周期从'天级'压缩至'小时级'，非技术人员可通过自然语言参与流程设计，减少跨岗位沟通成本。
灵活适配：无需修改底层代码，仅通过调整 Prompt 即可适配新数据源、新业务规则，尤其擅长处理半结构化/非结构化数据的预处理。
低门槛复用：将复杂 ETL 逻辑封装为'Prompt 模板'，后续同类场景仅需替换变量（如数据源路径、字段映射关系）即可快速复用。

二、Prompt 设计逻辑与原则

ETL 流程的三阶段目标不同，对应的 Prompt 设计需遵循'场景化指令 + 明确约束 + 示例引导'的核心逻辑。

（一）通用设计原则

无论针对哪个阶段，Prompt 需满足以下四点，确保 LLM 输出符合预期：

目标明确化：清晰说明该阶段需达成的具体结果，避免模糊表述。
上下文完整化：提供数据源信息、业务规则、工具限制。
格式约束化：指定输出格式（如'生成可直接运行的 Python 代码'）。
示例引导化：若场景复杂，可提供简单示例降低理解成本。

（二）各阶段侧重点

ETL 阶段	核心目标	Prompt 设计侧重点
抽取 (Extract)	准确获取目标数据，避免遗漏或冗余	明确数据源类型、访问方式、筛选条件、数据预览
转换 (Transform)	清洗、整合数据，确保数据质量	拆解转换步骤、明确业务规则、校验指标
加载 (Load)	写入目标存储，确保格式兼容、高效	指定目标类型、写入策略、日志输出

三、抽取阶段（Extract）实战

抽取阶段的核心是'精准获取目标数据'。

场景 1：从 MySQL 数据库抽取数据

Prompt 指令要点：

明确数据库地址、端口、库名、表名及字段。
定义筛选条件（时间范围、状态排除等）。
要求分批读取防止内存溢出，并包含异常处理。

代码实现思路： 我们通常使用 pymysql 连接，配合 LIMIT + OFFSET 进行分页查询。敏感信息（如密码）应设为变量而非硬编码。以下是生成的 Python 代码示例：

import pymysql
 pandas  pd
 pymysql.cursors  DictCursor

 ():
    
    db_config = {
        : ,
        : ,
        : ,
        : ,
        : ,
        : 
    }
    target_fields = 
    start_time = 
    end_time = 
    batch_size = 
    all_orders = []

    :
        connection = pymysql.connect(**db_config, cursorclass=DictCursor)
        cursor = connection.cursor()
        ()

        
        count_sql = 
        cursor.execute(count_sql)
        total_count = cursor.fetchone()[]
        ()

        
         offset  (, total_count, batch_size):
            extract_sql = 
            cursor.execute(extract_sql)
            batch_data = cursor.fetchall()
            all_orders.extend(batch_data)
            ()

        
         all_orders:
            df_preview = pd.DataFrame(all_orders).head()
            df_preview[] = df_preview[].astype().[-:]
            ()
            (df_preview.to_string(index=))
         pd.DataFrame(all_orders)
     Exception  e:
        ()
         
    :
           ():
            cursor.close()
           ()  connection.:
            connection.close()
            ()

 __name__ == :
    extracted_data = extract_mysql_orders()
     extracted_data   :
        ()

import requests import time import csv from typing import List, Dict def extract_api_products(): API_URL = "https://api.ecommerce.com/v1/products" APP_KEY = "your_app_key" CATEGORY_ID = 3 PAGE_SIZE = 20 TIMEOUT = 10 RETRY_TIMES = 2 RETRY_INTERVAL = 3 OUTPUT_CSV = "./products_electronic.csv" all_products: List[Dict] = [] current_page = 1 total_page = 1 print(f"开始抽取分类 {CATEGORY_ID}（电子产品）商品数据") try: while current_page <= total_page: params = { "app_key": APP_KEY, "category_id": CATEGORY_ID, "page": current_page, "page_size": PAGE_SIZE } retry_count = 0 while retry_count < RETRY_TIMES: try: response = requests.get(API_URL, params=params, timeout=TIMEOUT) response.raise_for_status() result = response.json() if result.get("code") != 200: raise Exception(f"API 响应错误：code={result.get('code')}") page_products = result.get("data", []) total_page = result.get("total_page", 1) all_products.extend(page_products) print(f"第 {current_page} 页抽取成功，获取 {len(page_products)} 条数据") break except Exception as e: retry_count += 1 if retry_count >= RETRY_TIMES: raise Exception(f"第 {current_page} 页抽取失败：{str(e)}") print(f"第 {current_page} 页抽取失败，{RETRY_INTERVAL} 秒后重试") time.sleep(RETRY_INTERVAL) current_page += 1 if all_products: fieldnames = all_products[0].keys() with open(OUTPUT_CSV, "w", encoding="utf-8", newline="") as f: writer = csv.DictWriter(f, fieldnames=fieldnames) writer.writeheader() writer.writerows(all_products) print(f"\n抽取完成，共获取 {len(all_products)} 条商品数据") return all_products except Exception as e: print(f"\n抽取过程异常终止：{str(e)}") return None if __name__ == "__main__": extract_api_products()

Prompt 驱动的 ETL 流程自动化实战指南