自有文档构建 RAG 与微调数据集：Word/Excel/PPT 数据处理方案 | 极客日志

PythonAI算法

自有文档构建 RAG 与微调数据集：Word/Excel/PPT 数据处理方案

介绍如何利用自有文档（Word、Excel、PPT 等）构建适用于 RAG 检索增强生成与大模型微调的数据集。通过智能化脚本将不同格式文件统一转换为结构化文本，结合 OCR 处理图像内容，实现文本分块、元数据提取及 JSONL 格式输出。涵盖环境搭建、分类策略、内容解析、合并处理及数据集划分全流程，提供高效的数据清洗与准备方案，提升模型训练效果。

HadoopMan发布于 2025/2/7更新于 2026/6/217 浏览

基于自有文档构建 RAG 与微调数据集

在构建检索增强生成（RAG）系统或进行大模型微调时，高质量的数据集是核心基础。企业日常产生的办公文档（如 Word、Excel、PPT、PDF 等）往往包含大量有价值的信息，但格式杂乱，难以直接利用。

本文将介绍如何将自有文档统一转换为结构化数据集，涵盖文本提取、表格解析、图像 OCR 识别及数据合并的全流程。

处理策略对比

针对多格式文档的处理，通常有三种主流方案：

分类型提取：将文本、图片、表格分别提取。例如将 Word/PDF 转为 HTML 或 Markdown，再分离内容；图片和表格单独处理为文本。
统一 OCR 提取：将所有文档转为图像，使用 OCR 工具统一提取。此方法能保留图表与原文本的相对位置，适合复杂排版，但精度受 OCR 影响。
智能化脚本处理：编写脚本自动识别文件类型，调用对应解析库。这是最高效的方式，能保持数据结构清晰，便于后续处理。

本文重点讲解第三种方案，实现一个自动化脚本，批量处理多种办公格式并生成标准数据集。

目标数据格式

为了适配 RAG 和微调任务，我们需要将数据输出为 JSONL 格式。每条记录应包含以下关键字段：

block_ID: 文本块的唯一标识符
doc_ID: 所属文档的唯一标识符
content_type: 内容类型（text, table, image）
file_type: 源文件格式（docx, xlsx, pptx 等）
file_source: 原始文件名
text: 提取后的实际文本内容
metadata: 其他元数据（如创建时间、作者等）

示例结构如下：

{
  "sample_number": 1246,
  "file_source": "MSFT_FY24Q4_10K.docx",
  "text": "estimates determined by management...",
  "metadata": {
    "created_date": "2024-07-29T23:12:00Z",
    "author_or_speaker": ""
  }
}

工作流程设计

整个处理流程可分为四个核心步骤：

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

创建 Conda 环境

conda create -n rag_data python=3.10
conda activate rag_data

安装依赖库 主要依赖包括文档解析库、OCR 库及数据处理库：
```
pip install python-docx openpyxl pdfplumber pytesseract pandas numpy
```

import os
from pathlib import Path

def get_file_types(directory):
    extensions = {
        'text': ['.docx', '.txt'],
        'table': ['.xlsx', '.xls', '.csv'],
        'ppt': ['.pptx'],
        'image': ['.jpg', '.png', '.pdf']
    }
    files = {'text': [], 'table': [], 'ppt': [], 'image': []}
    
    for root, _, filenames in os.walk(directory):
        for filename in filenames:
            ext = Path(filename).suffix.lower()
            for ftype, exs in extensions.items():
                if ext in exs:
                    files[ftype].append(os.path.join(root, filename))
                    break
    return files

from docx import Document

def extract_text_from_docx(file_path, chunk_size=400, max_chunk_size=600):
    doc = Document(file_path)
    full_text = []
    for para in doc.paragraphs:
        text = para.text.strip()
        if text:
            full_text.append(text)
    
    # 简单分块逻辑，实际可结合 NLP 模型进行语义切分
    chunks = []
    current_chunk = ""
    for line in full_text:
        if len(current_chunk) + len(line) <= max_chunk_size:
            current_chunk += line + "\n"
        else:
            if current_chunk:
                chunks.append(current_chunk)
            current_chunk = line + "\n"
    if current_chunk:
        chunks.append(current_chunk)
    return chunks

import pandas as pd

def extract_tables_from_excel(file_path):
    tables = []
    xls = pd.ExcelFile(file_path)
    for sheet_name in xls.sheet_names:
        df = pd.read_excel(xls, sheet_name=sheet_name)
        # 将 DataFrame 转为文本行
        for idx, row in df.iterrows():
            tables.append(" | ".join([str(v) for v in row]))
    return tables

import pytesseract
from PIL import Image

def run_ocr_on_image(image_path):
    img = Image.open(image_path)
    try:
        text = pytesseract.image_to_string(img, lang='chi_sim+eng')
        return text.strip()
    except Exception as e:
        print(f"OCR failed for {image_path}: {e}")
        return ""

import json
import uuid

def build_dataset(files_dict, output_path):
    dataset = []
    block_id = 0
    
    for ftype, paths in files_dict.items():
        for path in paths:
            file_name = os.path.basename(path)
            content_list = []
            
            if ftype == 'text':
                content_list = extract_text_from_docx(path)
            elif ftype == 'table':
                content_list = extract_tables_from_excel(path)
            elif ftype == 'image':
                content_list = [run_ocr_on_image(path)]
            
            for content in content_list:
                if not content:
                    continue
                record = {
                    "block_ID": str(uuid.uuid4()),
                    "doc_ID": os.path.splitext(file_name)[0],
                    "content_type": ftype,
                    "file_type": Path(path).suffix,
                    "file_source": file_name,
                    "text": content
                }
                dataset.append(record)
                block_id += 1
    
    with open(output_path, 'w', encoding='utf-8') as f:
        for item in dataset:
            f.write(json.dumps(item, ensure_ascii=False) + '\n')
    
    print(f"Dataset saved to {output_path}, total records: {len(dataset)}")

import random

def split_dataset(data, test_ratio=0.1, val_ratio=0.1):
    random.shuffle(data)
    n = len(data)
    test_end = int(n * test_ratio)
    val_end = int(n * (test_ratio + val_ratio))
    
    test_set = data[:test_end]
    val_set = data[test_end:val_end]
    train_set = data[val_end:]
    
    return train_set, val_set, test_set

自有文档构建 RAG 与微调数据集：Word/Excel/PPT 数据处理方案

基于自有文档构建 RAG 与微调数据集

处理策略对比

目标数据格式

工作流程设计

更多推荐文章

相关免费在线工具

1. 分类 (Classification)

2. 分别处理 (Extraction)

3. 合并到 JSON (Merging)

4. 制作数据集 (Dataset Construction)

环境准备

关键代码实现

1. 文件分类与遍历

2. 内容提取与分块

文本处理

表格处理

图像 OCR 处理

3. 数据合并与导出

4. 数据集划分

最佳实践建议

总结

更多推荐文章

相关免费在线工具

自有文档构建 RAG 与微调数据集：Word/Excel/PPT 数据处理方案

基于自有文档构建 RAG 与微调数据集

处理策略对比

目标数据格式

工作流程设计

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

1. 分类 (Classification)

2. 分别处理 (Extraction)

3. 合并到 JSON (Merging)

4. 制作数据集 (Dataset Construction)

环境准备

关键代码实现

1. 文件分类与遍历

2. 内容提取与分块

文本处理

表格处理

图像 OCR 处理

3. 数据合并与导出

4. 数据集划分

最佳实践建议

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具