【开源发布】MCP Document Converter：让你的 AI 助手精通 25 种文档转换神技！

优质文章学习记录

10 Apr 2026 — 4 min read

【个人主页：玄同765】

大语言模型（LLM）开发工程师｜中国传媒大学·数字媒体技术（智能交互与游戏设计）

深耕领域：大语言模型开发 / RAG知识库 / AI Agent落地 / 模型微调

技术栈：Python / LangChain/RAG（Dify+Redis+Milvus）| SQL/NumPy | FastAPI+Docker ️

工程能力：专注模型工程化部署、知识库构建与优化，擅长全流程解决方案

「让AI交互更智能，让技术落地更高效」

欢迎技术探讨/项目合作！关注我，解锁大模型与智能交互的无限可能！

前言：AI 时代的文档处理困境

【好消息】MCP Document Converter 已正式入驻 MCP 官方 Server 列表，并同步发布至 PyPI！

作为一名开发者，在使用 Trae 或 Claude 等 AI 助手时，你是否也曾感到力不从心？

扔给 AI 一个复杂的 PDF，它却告诉你“无法直接读取”？
想要 AI 帮你把 Markdown 文档导出为格式精美的 Word 或 PDF，却得手动复制粘贴？
网页 HTML 代码太乱，AI 分析起来总是抓不住重点？

为了彻底打通 AI 与各种文档格式之间的“次元壁”，我开发并开源了 MCP Document Converter。就在今天，它已正式入驻 MCP 官方 Server 列表！

核心亮点：不仅仅是转换，更是 AI 的“语义翻译官”

MCP Document Converter 是基于 Anthropic 推出的 MCP (Model Context Protocol) 协议开发的。它最大的特点是：让 AI 拥有了操作文档的原生能力。

目前，该工具支持以下 5 种核心格式的双向自由转换，共计 25 种转换组合：

📄 PDF (.pdf)：采用结构化提取技术，尽可能保留文档原始层级。
📘 Word (.docx)：支持样式、表格的解析与生成，让 AI 也能写公文。
🌐 HTML (.html)：语义化标签解析，支持自定义 CSS 注入，生成精美页面。
📝 Markdown (.md)：针对 AI 交互优化的 MD 格式，支持 YAML 元数据。
📃 Text (.txt)：最纯粹的文本处理，自动检测编码。

为什么它更懂 AI？ 因为它在转换过程中会优先保留文档的语义元数据（如标题、作者、创建时间），确保 AI 在处理文档时不会“断章取义”。

快速上手：三步解锁 AI 的“文档超能力”

我已经将项目发布到了 PyPI，并完美适配了 uv 工具链。你无需下载源码，只需几行配置即可启用。

1. 安装依赖

pip install mcp-document-converter

2. 配置 AI 助手（以 Trae/Claude 为例）

在你的 MCP 配置文件中添加如下代码：

方式一：通过 uvx 直接运行（推荐，自动管理环境）

{ "mcpServers": { "mcp-document-converter": { "command": "uvx", "args": ["mcp-document-converter"] } } }

方式二：如果你已经安装到本地环境

{ "mcpServers": { "mcp-document-converter": { "command": "python", "args": ["-m", "mcp_document_converter"] } } }

实战场景：让 AI 动起来

配置完成后，你可以直接在对话框里给 AI 下指令：

场景 A：“帮我把 docs/guide.md 转成带公司样式的 PDF，存到 output/ 文件夹。”
场景 B：“读取这个 resume.pdf，把它转成 Markdown 格式，然后根据内容提取出候选人的技能列表。”
场景 C：“这个 HTML 页面太乱了，帮我转成干净的 Word 文档发给同事。”

AI 会自动调用 convert_document 接口，在后台静默完成所有工作，你只需要坐享其成。

结语：开源精神与未来

MCP Document Converter 采用插件化架构，未来我会持续增加对更多格式（如 Excel、PPT、EPUB）的支持。

如果你觉得这个工具有所帮助，欢迎：

GitHub 点个 Star：xt765/mcp-document-converter
Gitee 镜像参与贡献：xt765/mcp-document-converter
PyPI 地址：https://pypi.org/project/mcp-document-converter/
MCP 官方注册表查询：点击查看官方收录状态
留言反馈：在 ZEEKLOG 或 GitHub Issue 中告诉我你的需求。

让我们一起，用 MCP 协议重新定义 AI 的工作流！

致创作的第365天：从Flowable起步，在软考与AIGC中寻找技术人的星辰大海

大家好，我是 BOB-wangbaohai。今天清晨登录后台，收到了一张特别的官方通知卡片。它静静地提醒我：今天，是我成为创作者的第 365 天。看着屏幕上的“1周年”字样，思绪瞬间被拉回到了去年的今天——2025年4月8日。在那看似平凡的一天里，我敲下了自己博客生涯的第一行文字：《Flowable7.x学习笔记（一）基础环境准备》。当时的我，只是单纯想把项目中用到工作流引擎的踩坑经验沉淀下来。未曾想，那篇为了“备忘”而写的文章，最终生长成了包含 23篇文章的专栏，也彻底推开了我技术写作的大门。回望这 365 天：6个专栏，75个脚印今天点开后台的“专栏管理”，看着这一行行数据，这 365 天的技术轨迹变得无比清晰。作为一名在日常工作中需要统筹全局的系统架构师，这75篇文章，不仅是技术分享，更是我对自己职业生涯的一次次复盘与死磕。 1. 夯实底座：死磕理论与架构的日与夜大家如果关注我的专栏，

VSCode 中精准禁用 Copilot 代码补全：按语言与场景灵活配置

1. 为什么需要精准控制 Copilot 代码补全作为一个用了 VSCode 和 Copilot 好几年的开发者，我深刻体会到 AI 代码补全的双刃剑效应。刚开始用 Copilot 的时候，那种"它怎么知道我要写什么"的惊喜感真的很棒，但后来我发现，在某些场景下，这种自动补全反而会成为负担。比如我在刷算法题的时候，刚写了个函数名，Copilot 就直接把整个实现都给我补全了。这还训练什么？完全达不到练习的目的。还有时候在写一些特定语言的代码，Copilot 的补全风格和团队规范不一致，每次都要手动调整，反而增加了工作量。更让我头疼的是在不同项目间切换的时候。有些项目我希望充分利用 Copilot 提高效率，有些项目则需要完全自己动手写代码。如果每次都去全局开关 Copilot，那也太麻烦了。其实 Copilot 的设计团队早就想到了这些场景，他们在 VSCode 中提供了非常精细的控制方式。不只是简单的开和关，你可以按编程语言禁用，

Copilot 的agent、ask、edit、plan模式有什么区别

Copilot 的 ask、edit、agent、plan 四种模式，核心区别在于权限范围、操作主动性、代码修改权限、适用场景，以下从定义、工作机制、核心特点、典型场景与操作流程展开，帮你快速区分并选对模式。一、核心区别速览（表格版）二、分模式详细解析 1. Ask 模式：纯问答与代码理解 * 工作机制：基于当前文件 / 选中代码的上下文，回答自然语言问题，不修改任何代码，仅输出文字解释、建议或思路。 * 典型用法： * 解释某段代码逻辑（如 “这段 Python 函数做了什么”）； * 咨询技术方案（如 “如何在 Go 中实现重试机制”）； * 调试思路（如 “这个死循环可能的原因”）。 * 关键特点：安全无风险，适合学习、快速澄清和非修改类咨询。

ChatGLM-6B智能写作助手开发指南

ChatGLM-6B智能写作助手开发指南 1. 引言你有没有过这样的经历？面对空白的文档，脑子里有无数想法，但就是不知道从何下笔。写工作报告时，总觉得语言干巴巴的，缺乏感染力；写营销文案时，绞尽脑汁也想不出吸引人的标题；写技术文档时，又担心表达不够专业准确。如果你也有这些困扰，那么今天要聊的这个话题可能会让你眼前一亮。基于ChatGLM-6B开发一个智能写作助手，听起来可能有点技术含量，但实际上并没有想象中那么复杂。这个助手不仅能帮你生成各种文体的内容，还能检查语法错误、优化表达风格，甚至根据你的需求调整语气和长度。我最近就在自己的项目中尝试了这套方案，用下来感觉确实能节省不少时间。特别是那些重复性的写作任务，比如写产品介绍、整理会议纪要、生成邮件模板等等，现在基本上交给助手就能搞定，我只需要做最后的润色和调整。接下来，我就详细分享一下如何从零开始搭建这样一个智能写作助手，包括环境部署、功能开发、实际应用等各个环节。无论你是开发者想要集成写作功能，还是内容创作者想要提升效率，相信都能从中找到有用的信息。 2. ChatGLM-6B模型简介在开始动手之前，我们