使用 Pandoc 与 Python 实现本地化 Markdown 转 Word 文档

在 DeepSeek、ChatGPT 等 AI 工具深度融入工作的今天，我们每天都会生成大量的 Markdown 格式内容。然而，将这些内容提交给客户或领导时，往往需要转换为 Word（Docx）格式。市面上的在线转换工具有两个致命痛点：隐私泄露风险（由于文件需上传至云端）和排版不可控（AI 生成的换行经常在 Word 里变成挤在一起的文字）。

本教程将教你如何使用 Pandoc（最强大的通用文档转换器）配合一段简单的 Python 脚本，在本地电脑上免费、安全、完美地完成转换。

第一部分：环境准备（安装 Pandoc）

Pandoc 是一个命令行工具，它没有图形界面，但它是目前世界上转换质量最高的工具。

1. Windows 用户安装

下载：访问 Pandoc GitHub Releases，下载后缀为 .msi 的安装包（例如 pandoc-3.x.x-windows-x86_64.msi）。
安装：双击运行，一路点击 'Next' 直到完成。注意：确保安装界面中勾选了 'Install for all users'（通常默认已勾选），这样系统才能识别命令。
验证：按 Win + R，输入 cmd 回车，在黑框里输入 pandoc -v。如果出现版本信息，说明安装成功。

2. macOS 用户安装

下载：同样访问 Pandoc GitHub Releases，下载后缀为 .pkg 的安装包。
安装：双击运行安装包，按提示完成安装。
验证：打开终端（Terminal），输入 pandoc -v 检查。

第二部分：为什么要用 Python 脚本辅助？

直接使用 Pandoc 转换 AI 生成的 Markdown 文档时，经常遇到一个问题：'软换行'被合并。

问题现象： Markdown 原文：

Pandoc 默认转换后的 Word： 这是第一行。这是第二行。 （合并成了同一段）

我们需要在非空行之间插入空行，强制 Pandoc 将其识别为独立段落。但是，如果简单粗暴地在每行后加空行，会把表格（Table）炸得支离破碎。

因此，我们需要一个能够**'识别表格'**的智能预处理脚本。

第三部分：智能转换脚本（核心工具）

本文提供了这个脚本。它具备以下功能：

自动预处理：在普通文本行之间插入空行，保证 Word 里段落分明。
表格保护（新功能）：智能识别 Markdown 表格，表格内部不插入空行，确保表格渲染完美。
表格隔离（新功能）：在表格的前后自动补充空行，防止表格和正文粘连。
一键转换：自动调用 Pandoc 生成 Word 文档。

脚本代码

#!/usr/bin/env python3 # -*- coding: utf-8 -*- import os import sys import subprocess import shutil def preprocess_markdown(content): """ 预处理 Markdown 文本： 1. 普通文本行之间插入空行，防止 Pandoc 将它们合并为一段。 2. 表格内部（以 | 开头）保持原样，不插入空行。 3. 表格前后确保有空行进行隔离。 """ lines = content.split('\n') processed_lines = [] in_table = False for i, line in enumerate(lines): stripped = line.strip() # 简单的 Markdown 表格行判断：以竖线开头 is_table_row = stripped.startswith('|') if is_table_row: if not in_table: # 【状态切换】刚进入表格 # 如果上一行不是空行，插入一个空行做隔离 if processed_lines and processed_lines[-1].strip() != '': processed_lines.append('') in_table = True # 表格行直接追加，不加额外空行 processed_lines.append(line) else: if in_table: # 【状态切换】刚离开表格 in_table = False # 离开表格后，立即追加一个空行做隔离 processed_lines.append('') # 普通文本处理 processed_lines.append(line) # 如果当前行有文字（不是空行），且不是代码块标记等特殊情况， # 则追加一个空行，强制 Pandoc 分段 if stripped and not stripped.startswith('```'): processed_lines.append('') return '\n'.join(processed_lines) def run_conversion(input_file): # 1. 检查 Pandoc 是否安装 if not shutil.which("pandoc"): print("错误：未检测到 Pandoc。请先安装 Pandoc 并添加到环境变量。") return # 2. 准备文件名 file_path = os.path.abspath(input_file) folder = os.path.dirname(file_path) filename = os.path.basename(file_path) filename_no_ext = os.path.splitext(filename)[0] # 临时文件和输出文件路径 temp_md_file = os.path.join(folder, f"{filename_no_ext}_temp_preprocessed.md") output_docx = os.path.join(folder, f"{filename_no_ext}.docx") try: # 3. 读取并预处理 Markdown print(f"正在处理文件：{filename} ...") with open(file_path, 'r', encoding='utf-8') as f: raw_content = f.read() # 调用核心预处理逻辑 clean_content = preprocess_markdown(raw_content) # 写入临时文件 with open(temp_md_file, 'w', encoding='utf-8') as f: f.write(clean_content) # 4. 调用 Pandoc 进行转换 # 命令解释：pandoc 输入文件 -o 输出文件 --reference-doc=模板 (可选) cmd = f'pandoc "{temp_md_file}" -o "{output_docx}"' print("正在调用 Pandoc 进行转换...") result = subprocess.run(cmd, shell=True, capture_output=True, text=True) if result.returncode == 0: print(f"✅ 转换成功！") print(f"📄 输出文件：{output_docx}") else: print(f"❌ 转换失败：\n{result.stderr}") except Exception as e: print(f"发生异常：{e}") finally: # 5. 清理临时文件 if os.path.exists(temp_md_file): os.remove(temp_md_file) if __name__ == '__main__': # 使用方法：直接运行或拖入文件 if len(sys.argv) > 1: target_file = sys.argv[1] run_conversion(target_file) else: print("使用说明：") print("请将 .md 文件直接拖拽到这个脚本文件上运行，") print("或者在命令行输入：python md2docx.py <你的文件名.md>") input("\n按回车键退出...")

使用 Pandoc 与 Python 实现本地化 Markdown 转 Word 文档