【AIGC】即梦omnihuaman-api调用实现

优质文章学习记录

09 Apr 2026 — 4 min read

即梦数字人视频生成（Streamlit Demo）

基于 火山引擎即梦（Jimeng）CV API 的数字人视频生成示例项目。

支持 图片 + 音频驱动 的数字人视频生成流程，集成了主体检测、Mask 选择、Prompt 控制、视频生成与下载等完整功能，适合 内部测试 / 技术演示 / 二次开发。

一、功能概览

✅ 核心功能

🔐 AK / SK 在线填写
支持火山引擎 Access Key / Secret Key 在页面中直接输入
无需写死在代码中，便于多账号切换
api key申请地址：https://console.volcengine.com/iam/keymanage
🖼 图片上传（人物图像）
支持 JPG / PNG 格式
自动保存到本地并生成公网可访问 URL
🎵 音频上传（驱动音频）
支持 MP3 / WAV 格式
作为数字人说话 / 表情驱动音频
🔍 人物 / 主体检测
调用即梦目标检测接口
自动识别图片中的多个主体
返回每个主体对应的 Mask
✂️ Mask 裁剪与可视化预览
根据 Mask 自动裁剪主体区域
按最长边缩放，统一预览尺寸
🧩 主体选择机制
可从多个检测到的主体中选择
支持「不使用 Mask，直接使用原图」模式
✏️ Prompt 驱动控制
支持输入文本 Prompt
用于控制表情、稳定性、真实感、风格等
🎬 数字人视频生成
提交视频生成任务
自动轮询任务状态
📥 视频结果展示与下载
生成完成后可直接在线播放
支持下载 MP4 文件
视频按「时间 + UUID」自动命名并保存

二、运行环境要求

Python ≥ 3.9（推荐 3.10）
操作系统：Linux / macOS / Windows
一个 可公网访问的静态文件服务（用于图片和音频 URL）

⚠️ 火山引擎接口要求：

图片和音频 URL 必须可以被公网直接访问

三、依赖安装

1️⃣ 创建虚拟环境（强烈推荐）

 python -m venv venv source venv/bin/activate

Windows：

 venv\\Scripts\\activate

2️⃣ 安装 Python 依赖

直接安装：

 pip install streamlit requests pillow numpy

或使用 requirements.txt：

 streamlit>=1.30 requests>=2.28 Pillow>=9.5 numpy>=1.23

 pip install -r requirements.txt

四、目录结构说明

 . ├── app.py # Streamlit 主程序 ├── res/ # 生成的视频结果保存目录 ├── requirements.txt # Python 依赖 └── README.md

请确保 res 目录存在：

mkdir -p res

五、静态文件服务配置（非常重要）

项目中会将 上传的图片 / 音频保存到本地目录，并通过 HTTP 方式对外暴露。

示例配置（本地测试）

 UPLOAD_DIR ="/home/yourname/data/uploads" PUBLIC_BASE_URL ="http://你的IP:8000"

启动一个简单的 HTTP 服务：

cd /home/yourname/data/uploads python -m http.server 8000

生产环境建议使用：

nginx

caddy

cloudflared

生产环境配置步骤

安装cloudflared

# 下载wget https://github.com/cloudflare/cloudflared/releases/latest/download/cloudflared-linux-amd64 # 改名mv cloudflared-linux-amd64 cloudflared # 加执行权限chmod +x cloudflared # 移到 PATHsudomv cloudflared /usr/local/bin/

启动运行

本地启动 HTTP 服务

cd /home/yourname/data/uploads python -m http.server 8000

新开一个终端，启动隧道

 cloudflared tunnel --url http://localhost:8000

会看到类似输出：

https://random-name.trycloudflare.com

访问你的音频

https://random-name.trycloudflare.com/test.mp3

六、启动项目

 streamlit run app.py

浏览器访问：

 http://localhost:8501

七、使用流程说明

打开页面，输入 Access Key / Secret Key
上传一张 人物图片
上传一段 音频文件
（可选）输入 Prompt 描述
点击「开始检测」
从检测到的主体中选择目标（或选择原图）
等待视频生成完成
在线预览并下载生成的视频

八、常见注意事项

建议使用 清晰正脸人物图像
音频时长不宜过长（建议 < 60 秒）
若接口返回失败，请重点检查：
AK / SK 是否正确
图片 / 音频 URL 是否能被公网访问
文件格式是否符合要求

九、适用场景

数字人 / 虚拟人能力演示
内部技术验证
API 调用示例参考
二次开发或功能扩展基础工程

十、项目地址及页面

https://github.com/min-star/omnihuman-api.git

页面展示

十一、免责声明

本项目仅作为 火山引擎即梦 API 使用示例（Demo）。

生成效果、接口能力、配额限制等以火山引擎官方文档为准。

参考链接：https://jimeng.jianying.com/ai-tool/generate?type=digitalHuman

十二、可扩展方向（建议）

Docker 一键部署
AK / SK 使用环境变量管理
多任务队列 / 并发控制
历史任务与结果管理
Prompt 模板与预设管理

如需进一步定制或扩展，请根据实际业务需求进行二次开发。

Web Worker：让前端飞起来的隐形引擎

目录 Web Worker：让前端飞起来的隐形引擎一、什么是 Web Worker？ 1、为什么需要 web worker 2、什么是 web worker 二、基本使用方法 1、创建一个 Worker 文件（worker.js） 2、主线程引入并使用三、实战案例：在前端处理大批量数据 1、Worker 文件（sortWorker.js） 2、主线程调用四、Vue3 中如何优雅使用 Web Worker 1、新建 Worker 文件（worker.js） 2、在 Vue3

前端实现 PDF 文件预览的 7 种方案详解

前端实现 PDF 文件预览的 7 种方案详解一、原生浏览器方案 1. 使用 <embed> 标签 <embedsrc="document.pdf"type="application/pdf"width="100%"height="600px"/> 优点： * 零依赖原生支持 * 自动显示控制栏（打印/下载按钮）缺点： * 不同浏览器样式差异大 * 无法深度定制界面 * 移动端兼容性较差 2. 使用 <object> 标签 <objectdata=

openclaw新手入门指南：一文看懂环境搭建、模型配置与 WebUI 远程访问

目录 * 1. 基础设施层：OpenClaw 运行环境的初始化 * 2. 算力与模型层：蓝耘 MaaS 平台的接入配置 * 2.1 协议适配与 JSON 配置 * 3. 编排层：OpenClaw 初始化与 Onboarding 流程 * 3.1 模式选择与基础设置 * 3.2 模型提供商与应用集成策略 * 3.3 技能库（Skills）装载与服务启动 * 4. 网络架构与网关（Gateway）配置 * 4.1 网关暴露与安全策略 * 4.2 Web UI 远程访问与设备配对（Device Pairing） * 5. 高级模型编排与 JSON 配置深度解析

前端流式处理实现：从原理到代码的完整解析

引言在现代Web应用中，流式处理已经成为提升用户体验的重要技术之一。特别是在AI对话、长文本生成等场景中，流式处理能够让用户看到内容的实时生成过程，而不是等待整个内容生成完成后一次性显示。本文将详细介绍如何实现前端流式处理，以及如何通过流式处理实现界面的逐个文字显示效果。什么是流式处理？流式处理（Streaming）是一种数据处理方式，它允许数据在生成的同时被处理和显示，而不需要等待所有数据都生成完成。在Web开发中，流式处理通常通过以下技术实现： 1. Server-Sent Events (SSE)：一种服务器向客户端推送数据的技术 2. WebSocket：全双工通信协议 3. Fetch API + ReadableStream：现代浏览器提供的流式处理能力本文将重点介绍基于Fetch API和ReadableStream的流式处理实现。实现原理前端流式处理的核心原理是： 1. 客户端发送请求时，设置stream: true参数 2. 服务器收到请求后，以流式方式返回数据 3. 客户端通过ReadableStream接口逐块接收数据