基于 Coze 工作流搭建全自动 AI 视频生成 Agent
痛点分析:传统 AI 视频制作的挑战
现有的 AI 视频工具(如 Runway, Pika, HeyGen)虽然功能强大,但在实际落地中常面临以下问题:
- 工具割裂:脚本撰写、图像生成、语音合成、视频剪辑往往分散在不同平台。频繁切换软件与传输文件会显著降低效率。
- 可控性差:生成的视频内容难以精确控制,微调参数通常需要重新渲染,耗时较长。
- 技术门槛:若需使用 Stable Diffusion 或 Sora 等底层模型,往往需要较强的代码能力与算力资源支持。
Coze 这类低代码/无代码平台通过封装大模型与工具插件,将复杂的逻辑可视化,有效解决了'工具孤岛'问题。用户只需通过拖拽即可构建自动化流水线。
核心原理:工作流编排
在 Coze 中,视频制作不再是单一指令,而是通过**工作流(Workflow)**编排一系列节点。典型的视频生产链路如下:
输入主题 -> 脚本生成 -> 分镜图生成 -> 图片转视频 (可选) -> 语音合成 -> 素材合成
对应的节点设计包括:
- 开始节点:接收用户输入的主题或关键词。
- 大模型节点:调用 LLM(如 GPT-4, Claude)生成结构化脚本(JSON 格式)。
- 插件节点:解析 JSON,调用 DALL-E 3 等工具生成图片,或调用 TTS 插件生成音频。
- 结束节点:返回处理后的结果或素材包。
这种模式无需编写 Python 代码,即可实现复杂逻辑的自动化执行。
实战步骤:搭建口播视频生成 Agent
1. 创建 Bot 并配置基础信息
登录 Coze 平台,新建一个 Bot。建议命名为'AI 视频工坊'。
人设与提示词(Prompt)示例:
你是一个专业的短视频导演。你的任务是根据用户的主题,规划视频脚本,并调用工具生成素材。请严格按照'场景 - 画面描述 - 旁白'的格式输出。
2. 添加必要插件
在 Bot 的'插件'页面搜索并添加以下组件:
- DALL-E 3:用于生成视频封面和分镜插图。
- Bing Search:用于获取实时资讯,减少大模型幻觉。
- TTS (语音合成):Coze 自带高质量语音插件,支持多种音色选择。
- CapCut/剪映 API(如有):用于直接合成视频,否则可生成素材包供下载。
3. 编排工作流(核心环节)
进入'工作流'编辑界面进行逻辑串联:
-
节点 A:LLM 脚本生成
- 输入:用户主题
- 操作:调用大模型,设定 Prompt 为'生成 3 个分镜,包含画面描述和旁白文字,输出 JSON 格式'。
- 输出示例:
[{"scene": 1, "img_prompt": "a cat in space", "text": "Cats are cute"}]
-
节点 B:循环生成图片
- 遍历节点 A 的 JSON 输出。
- 对每一项调用 DALL-E 3 插件,传入
img_prompt。 - 将生成的图片 URL 存入变量列表。

