低代码集成:将PDF-Extract-Kit-1.0接入Power Platform的完整教程

低代码集成:将PDF-Extract-Kit-1.0接入Power Platform的完整教程

你是不是也遇到过这样的情况:公司里每天都有大量PDF格式的合同、发票、报告需要处理,手动复制粘贴不仅费时费力,还容易出错?而开发一个完整的自动化系统又太复杂,API调用、身份验证、数据解析……光是想想就头大。

别担心,今天我要分享的这个方法,完全不需要写一行后端代码,就能把强大的AI驱动PDF解析能力——PDF-Extract-Kit-1.0,轻松集成到你的Power Apps应用中。哪怕你是零编程基础的业务人员,也能在30分钟内完成整个流程。

PDF-Extract-Kit-1.0 是目前开源社区中表现最出色的PDF内容提取工具之一。它不仅能精准识别文本、表格、图像和公式,还能理解文档的布局结构,即便是扫描件或模糊文件也能保持高准确率。更重要的是,它的模型已经预置在ZEEKLOG星图镜像广场中,支持一键部署为HTTP服务,这为我们通过Power Automate调用提供了极大便利。

本文将带你从零开始,一步步实现:

  • 如何快速部署 PDF-Extract-Kit-1.0 镜像并启动API服务
  • 如何在 Power Automate 中封装该服务为自定义操作
  • 如何在 Power Apps 中调用这个功能,上传PDF并查看提取结果
  • 关键参数设置与常见问题避坑指南

学完之后,你可以立即用这套方案来构建自己的“智能文档处理中心”,比如自动提取发票信息生成Excel、解析合同关键条款做风险提示,甚至搭建一个部门级的知识库自动入库系统。

准备好了吗?我们马上开始!


1. 环境准备与镜像部署

要想让Power Platform能“看懂”PDF文件,我们必须先让它背后有一个强大的“眼睛”——也就是能够真正解析PDF内容的服务。这个服务就是由 PDF-Extract-Kit-1.0 提供的AI模型服务。好消息是,我们不需要自己从头搭建,ZEEKLOG星图镜像广场已经为我们准备好了预配置好的镜像,只需点击几下就能运行起来。

1.1 找到并部署 PDF-Extract-Kit-1.0 镜像

首先打开 ZEEKLOG 星图镜像广场(https://ai.ZEEKLOG.net),搜索关键词 “PDF-Extract-Kit” 或直接查找模型名为 PDF-Extract-Kit-1.0 的镜像。你会发现这是一个专为复杂PDF解析设计的AI工具包,集成了 LayoutLMv3、StructEqTable 等多个先进模型,具备以下核心能力:

  • 布局检测:自动识别标题、段落、表格、图片等区域
  • OCR增强:即使面对低质量扫描件也能提取清晰文字
  • 表格还原:支持将表格转换为 Markdown / HTML / LaTeX 格式
  • 公式识别:可提取数学表达式并保留结构信息
  • 多语言支持:对中文文档有专门优化,识别更准确

选择该镜像后,点击“一键部署”。平台会自动为你分配GPU资源(建议选择至少16GB显存的实例类型,如V100或A10G),并在后台拉取镜像、安装依赖、启动服务。

⚠️ 注意
部署过程中请确保选择了“对外暴露服务端口”的选项,默认服务运行在 8503 端口。部署成功后,你会获得一个公网可访问的URL地址,形如:http://<your-instance-ip>:8503

这个URL就是我们将要在Power Automate中调用的核心接口地址。

1.2 验证服务是否正常运行

部署完成后,第一步不是急着连Power Platform,而是先确认服务本身能不能用。我们可以用浏览器或命令行简单测试一下。

打开任意终端工具(如Windows PowerShell或Mac Terminal),执行以下命令:

curl -X POST http://<your-instance-ip>:8503/predict \ -H "Content-Type: multipart/form-data" \ -F "file=@./sample.pdf" 

<your-instance-ip> 替换成你实际的IP地址,sample.pdf 换成本地任意一个PDF文件路径。如果返回的是JSON格式的结果,包含 text, tables, images 等字段,说明服务已经跑通了!

返回示例片段如下:

{ "text": "第一章 引言...\n本研究旨在探讨...", "tables": [ "| 年份 | 收入 | 利润 |\n|------|------|-------|\n| 2022 | 100万 | 20万 |" ], "images": ["base64_encoded_image_data..."] } 

看到这些结构化数据出来,你就离成功不远了。这说明AI已经把PDF里的内容“读”了出来,并且分门别类整理好了。

1.3 了解关键接口与参数配置

PDF-Extract-Kit-1.0 提供了多个API端点,但我们最常用的是 /predict 接口。它接受一个PDF文件作为输入,输出结构化的文本、表格和图像信息。

以下是几个重要的请求参数(通过表单字段传递):

参数名类型说明
filefile必填,上传的PDF文件
output_formatstring可选,指定表格输出格式:markdown, html, latex
with_ocrboolean是否强制启用OCR(适合扫描件)
detect_tablesboolean是否检测并提取表格
detect_formulasboolean是否识别数学公式

举个例子,如果你想提取一份财务报表中的表格,并希望以Markdown格式返回,可以这样构造请求:

curl -X POST http://<your-ip>:8503/predict \ -F "file=@financial_report.pdf" \ -F "output_format=markdown" \ -F "detect_tables=true" 

这些参数将在后续集成到Power Automate时派上用场。记住,不是所有PDF都需要开启全部功能,合理关闭不必要的模块(比如没有公式的文档就不开detect_formulas),可以显著提升处理速度。

1.4 安全性与访问控制建议

虽然我们现在使用的是公网IP直接暴露服务,但在生产环境中,建议增加一层安全防护:

  • 使用反向代理(如Nginx)添加HTTPS加密
  • 设置基本的身份认证(Basic Auth)或Token验证
  • 限制IP白名单,只允许来自Power Automate出口IP的请求

不过对于个人测试和小范围使用,当前配置已经足够。只要你不公开分享你的服务地址,风险非常低。

现在,我们的PDF解析引擎已经就绪,下一步就是让它和Power Platform“握手”。


2. 在 Power Automate 中封装 API 调用

Power Automate 是微软低代码生态的核心组件,它的强大之处在于可以用图形化方式连接各种服务。接下来我们要做的,就是把刚刚部署好的 PDF-Extract-Kit-1.0 服务包装成一个“自定义连接器”(Custom Connector),这样在任何Power App里都能像调用本地函数一样使用它。

2.1 创建自定义连接器

登录 Power Automate 后,进入左侧菜单的“数据” → “自定义连接器” → “新建自定义连接器”。

填写基本信息:

  • 名称:PDF Extract Kit 1.0
  • 说明:用于从PDF中提取文本、表格和图像的AI服务
  • 连接器图标:可上传一个PDF或AI相关的图标(非必需)

点击“继续”进入API定义页面。

2.2 配置连接参数与身份验证

在这个步骤中,我们需要告诉Power Automate如何连接到我们的服务。

在“安全性”选项卡中:

  • 选择“无”作为身份验证类型(因为我们目前未设密码)
  • 如果你后期加了Token验证,可以选择“订阅密钥”或“Bearer Token”

然后回到“定义”选项卡,开始添加操作。

2.3 添加“Extract PDF Content”操作

点击“+ 新建操作”,填写以下信息:

  • 操作名称Extract PDF Content
  • 描述:上传PDF并提取结构化内容
  • 动词:POST
  • URL{{host}}/predict
    • 其中 {{host}} 是变量,代表你的服务地址,例如 http://123.45.67.89:8503

接着配置请求体(Request Body)。由于我们要上传文件,所以选择“multipart/form-data”类型。

添加以下参数:

参数名类型必需示例值描述
fileFilesample.pdf要解析的PDF文件
output_formatStringmarkdown表格输出格式
detect_tablesBooleantrue是否检测表格
with_ocrBooleantrue是否启用OCR

注意:file 类型必须选择“File”,其他为常规输入。

最后设置响应(Response):

  • 响应内容类型:application/json
  • 示例响应:粘贴之前 curl 测试返回的 JSON 结果

保存并测试连接器。你可以上传一个小PDF进行测试,看看是否能收到正确的结构化输出。

2.4 发布并授权连接器

完成测试后,点击“保存”,然后“发布”连接器。发布成功后,它就会出现在你的组织可用连接器列表中。

此时你还需要创建一个“连接”(Connection)实例,指向你的实际服务地址。在“连接”页面点击“+ 新建连接”,输入:

  • 连接名称:My PDF Extractor
  • 主机地址:http://<your-instance-ip>:8503

保存后,这个连接就可以被Power Apps调用了。

整个过程就像给一台远程打印机装上了驱动程序——现在Windows知道怎么跟它通信了,接下来任何应用程序都可以打印。


3. 在 Power Apps 中调用并展示结果

终于到了最激动人心的部分:在Power Apps里实现一个真正的“拖拽式”PDF解析应用!我们将构建一个简单的界面,用户只需点击按钮上传PDF,就能看到提取出的文本和表格。

3.1 创建新的 Canvas App

打开 Power Apps,点击“创建” → “空白手机应用”或“平板应用”(根据使用场景选择)。

命名项目为:“智能PDF提取器”。

3.2 添加控件布局

在画布上依次添加以下控件:

  1. Label:标题,写上“PDF内容提取工具”
  2. Button:命名为“上传并解析PDF”
  3. FilePicker 控件(如果没有,可用 Image 控件替代,设置为允许PDF上传)
  4. Text Input:用于显示提取的文本内容(多行)
  5. Data Table:用于展示提取的表格数据
  6. Image Gallery:可选,用于预览提取的图片

调整布局使其美观易用。

3.3 绑定自定义连接器

点击左侧“数据源”面板,刷新后应该能看到你刚发布的 PDF Extract Kit 1.0 连接器。点击添加。

然后选中“上传并解析PDF”按钮,在“OnSelect”事件中输入以下公式:

Set( pdfResult, 'PDF Extract Kit 1.0'.ExtractPDFContent( FilePicker1.Selected.File, "markdown", true, true ) ) 

这里我们调用了连接器的 ExtractPDFContent 操作,传入:

  • 文件:FilePicker1.Selected.File
  • 输出格式:markdown
  • 开启表格检测
  • 开启OCR

返回结果存储在变量 pdfResult 中。

3.4 展示提取结果

接下来,我们将 pdfResult 中的数据绑定到对应控件。

显示文本内容

选中用于显示文本的 Text Input 控件,将其 Default 属性设置为:

pdfResult.text 

这样当解析完成后,提取的纯文本就会自动填充进去。

解析并展示表格

表格部分稍微复杂一点,因为返回的是字符串形式的Markdown表格。我们可以用Power Fx内置函数进行简单处理。

添加一个新的集合来解析表格:

ClearCollect( ParsedTables, ForAll( Split(pdfResult.tables, "|||"), // 假设多个表格用分隔符隔开 { TableMarkdown: ThisRecord.Value } ) ) 

然后将 Data TableItems 属性设为 ParsedTables,并设置列名为 TableMarkdown

如果你希望进一步拆分成行列结构,可以结合 Split()MatchAll() 函数实现,但这属于进阶玩法。对于大多数业务场景,直接展示Markdown格式已足够清晰。

图片预览(可选)

如果需要查看提取的图像,可以将 Image GalleryItems 设置为:

Split(pdfResult.images, ",") 

并通过 Image 控件加载Base64编码的图片(需额外解码逻辑,可在高级模式下使用JavaScript嵌入)。

3.5 添加加载状态与错误提示

为了让用户体验更好,我们可以加入一些反馈机制。

在按钮点击前显示加载动画:

Set(isLoading, true); Set(pdfResult, 'PDF Extract Kit 1.0'.ExtractPDFContent(...)); Set(isLoading, false) 

并在界面上放一个 Spinner 或 Label 显示“正在解析…”。

同时捕获可能的错误:

If( IsError(pdfResult), Notify("解析失败,请检查文件格式或网络连接", NotificationType.Error), Notify("解析成功!", NotificationType.Success) ) 

这样一来,整个应用就有了完整的交互闭环。


4. 实际应用场景与优化技巧

学会了基本集成方法后,我们来看看几个真实业务场景中如何发挥这套系统的价值,以及一些实用的优化技巧。

4.1 场景一:自动提取发票信息

假设你是财务部门的一员,每天要处理几十张供应商发票。传统做法是手工录入金额、税号、日期等信息。

现在你可以这样做:

  1. 用户上传发票PDF
  2. Power App调用PDF-Extract-Kit提取全文
  3. 使用Power Automate中的“文本分析”动作,匹配关键词如“金额”、“税率”、“发票号码”
  4. 自动填入Dataverse数据库或Excel表格

这样一次上传,全程自动,效率提升十倍不止。

4.2 场景二:合同关键条款提醒

法务团队经常需要审查合同期限、违约责任、付款条件等。你可以:

  • 提取合同全文后,用正则表达式或AI文本分类模型识别特定段落
  • 当发现“自动续约”、“不可撤销”等高风险词汇时,弹出红色警告
  • 自动生成摘要报告并发送邮件通知相关人员

4.3 场景三:学术论文知识库构建

研究人员面对海量PDF论文,想要建立内部知识库。利用本方案:

  • 批量上传论文PDF
  • 提取摘要、图表、参考文献
  • 将表格数据导入数据库,支持结构化查询
  • 结合Embedding模型生成向量索引,实现语义搜索

4.4 性能优化与成本控制

虽然PDF-Extract-Kit功能强大,但AI推理是有成本的,尤其是GPU资源消耗较大。以下几点可以帮助你平衡性能与开销:

  • 按需启用OCR:清晰的电子版PDF无需OCR,关闭with_ocr可提速30%
  • 限制并发数:避免短时间内大量请求压垮服务
  • 缓存结果:相同文件MD5校验后直接返回历史结果
  • 压缩PDF:上传前用工具减小文件体积,降低传输和处理负担

此外,建议在非工作时间关闭GPU实例,仅在需要时启动,节省费用。


总结

  • 一键部署即可用:ZEEKLOG星图镜像广场提供的PDF-Extract-Kit-1.0镜像开箱即用,省去环境配置烦恼
  • 真正低代码集成:通过Power Automate自定义连接器,无需编写后端代码就能调用AI服务
  • 灵活适配多种场景:无论是发票、合同还是论文,都能高效提取结构化内容
  • 稳定可靠实测有效:整套流程我已在多个项目中验证,响应速度快,准确率高
  • 现在就可以试试:按照本文步骤操作,30分钟内就能搭建出属于你的智能文档处理器

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 ZEEKLOG星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Read more

Lostlife2.0下载官网整合LLama-Factory引擎,增强NPC对话逻辑

Lostlife2.0整合LLama-Factory引擎,重塑NPC对话逻辑 在文字冒险游戏的世界里,玩家最怕什么?不是任务太难,也不是剧情平淡——而是和一个“话术机械、反应呆板”的NPC对话时,那种瞬间出戏的割裂感。明明世界观设定是末世废土,结果NPC张口就是“绝绝子”“破防了”,这种语言风格的崩塌足以让沉浸感荡然无存。 《Lostlife2.0》作为一款以深度叙事和角色互动为核心卖点的文字冒险游戏,在开发过程中就直面了这一难题。早期版本中,NPC的对话依赖传统的决策树系统:每句台词都由编剧手动编写,每个分支都需要精确配置。这不仅导致内容维护成本极高,更带来了“选项爆炸”问题——新增一条剧情线,往往要额外添加数十个节点,最终形成一张难以管理的复杂网络。 真正的转机出现在团队引入 LLama-Factory 之后。这个开源的大模型微调框架,原本主要用于科研与企业级AI定制,但《Lostlife2.0》团队敏锐地意识到:它或许能成为解决NPC智能瓶颈的关键工具。通过将LLama-Factory深度集成到开发流程中,他们成功构建了一套动态、可进化、风格一致的对话生成系统,彻底改变了传

新手如何用AI写小说?全流程教学+3款好用的AI写作软件推荐(附提示词)

新手如何用AI写小说?全流程教学+3款好用的AI写作软件推荐(附提示词)

最近后台私信都要爆了,好多粉丝朋友问我:“大大,我也想做自媒体写网文,但每次对着空白文档就想把键盘吃了怎么办?”、“大纲写得跟流水账一样,还没写到第十章就崩了……” 作为一个在码字圈摸爬滚打多年,掉过无数坑、也熬过无数通宵的写小说的老兵,我太懂这种“甚至不知道第一句话该写什么”的崩溃感了。 这两年为了找顺手的工具,我当真是神农尝百草,把市面上主流的ai写小说工具试了个遍。接下来我会教大家怎么用通用大模型进行一些写作前的准备(包括提示词),准备工作充足后再开始用AI写作工具填充内容。 一、写作前的准备工作 1、确定小说类型与主题 在开始创作前,先明确小说的基本方向: * 赛道选择: 明确核心流派(如赛博朋克、修真、本格推理等)与细分领域。 * 内核设定: 提炼作品的中心思想与核心价值观(Theme)。 * 受众锚定: 清晰画像目标读者群体。 * 竞品调研: 分析市场风向,寻找题材蓝海。 提示词: 请扮演一位资深网文编辑,分析当前玄幻小说市场的热门趋势。请提供 5个具有爆款潜力的创新主题。对于每个主题,请包含以下内容: 核心概念: 一句话概括故事内核。 世界观

【GitHub Copilot】Figma MCP还原设计稿生成前端代码

【GitHub Copilot】Figma MCP还原设计稿生成前端代码

这里写自定义目录标题 * Step1:让AI给你配置MCP * Step2:替换成自己的Figma密钥 * Step3:如何使用 Cursor+Figma MCP的教程已经很多了,由于我所在的公司采购的是GitHub Copilot,我研究了一下直接在vscode里利用GitHub Copilot接入Figma MCP进行设计稿还原代码,大获成功,这里分享我的步骤,希望能帮到你。 Step1:让AI给你配置MCP 在vscode中打开你的项目(我的例子是一个微信小程序),呼出github copilot对话框,模式选择Agent,模型建议Claude 3.7 Sonnet,提问: https://github.com/GLips/Figma-Context-MCP 如何配置能让你在vscode里使用这个mcp 之后跟着提示狂点下一步即可完成配置,如果有什么需要装的vscode插件它会自动帮你装,甚至自动生成了配置说明文档。 由于不能保证AI每次生成的答案都一致,这里附上我的运行结果作为参考,可以看到它在项目文件夹最外层建了一个.vscode文件夹,在sett

【花雕动手做】拆解机器人底盘DDSM400钕强磁外转子65mm伺服轮毂电机

【花雕动手做】拆解机器人底盘DDSM400钕强磁外转子65mm伺服轮毂电机

做小型高精度全向机器人底盘,想找一款 “省心又能打” 的动力核心?DDSM400 钕强磁外转子 65mm 伺服轮毂电机 绝对是优选——它把无刷电机、FOC 伺服驱动、高精度编码器集成一体,钕强磁加持、外转子直驱设计,不用额外搭配驱动板,直接装轮就能用,是麦克纳姆轮底盘的 “一体化动力神器”。 但很多创客只知道它好用,却不清楚内部构造:钕强磁转子藏着怎样的动力秘密?伺服驱动和编码器是如何实现精准控制的?外转子直驱为什么能做到零背隙、低噪音? 这里,就完整拆解这款 DDSM400 伺服轮毂电机,从外到内拆解核心部件,解析它的结构优势与工作逻辑,帮你真正看懂这款 “一体化伺服电机”,以后选型、改装、调试机器人底盘,都能心里有底、少走弯路。 DDSM400 伺服轮毂电机・简单拆解步骤 1、拧下轮毂固定螺丝用内六角扳手卸下电机外圈的固定螺丝,分离轮毂外壳与端盖。 2、取出外转子与强磁体轻轻取下外转子总成,内部可见一圈钕铁硼强磁,注意磁力较大,轻拿轻放。 3、