【AIGC】即梦omnihuaman-api调用实现

优质文章学习记录

08 Apr 2026 — 4 min read

即梦数字人视频生成（Streamlit Demo）

基于 火山引擎即梦（Jimeng）CV API 的数字人视频生成示例项目。

支持 图片 + 音频驱动 的数字人视频生成流程，集成了主体检测、Mask 选择、Prompt 控制、视频生成与下载等完整功能，适合 内部测试 / 技术演示 / 二次开发。

一、功能概览

✅ 核心功能

🔐 AK / SK 在线填写
支持火山引擎 Access Key / Secret Key 在页面中直接输入
无需写死在代码中，便于多账号切换
api key申请地址：https://console.volcengine.com/iam/keymanage
🖼 图片上传（人物图像）
支持 JPG / PNG 格式
自动保存到本地并生成公网可访问 URL
🎵 音频上传（驱动音频）
支持 MP3 / WAV 格式
作为数字人说话 / 表情驱动音频
🔍 人物 / 主体检测
调用即梦目标检测接口
自动识别图片中的多个主体
返回每个主体对应的 Mask
✂️ Mask 裁剪与可视化预览
根据 Mask 自动裁剪主体区域
按最长边缩放，统一预览尺寸
🧩 主体选择机制
可从多个检测到的主体中选择
支持「不使用 Mask，直接使用原图」模式
✏️ Prompt 驱动控制
支持输入文本 Prompt
用于控制表情、稳定性、真实感、风格等
🎬 数字人视频生成
提交视频生成任务
自动轮询任务状态
📥 视频结果展示与下载
生成完成后可直接在线播放
支持下载 MP4 文件
视频按「时间 + UUID」自动命名并保存

二、运行环境要求

Python ≥ 3.9（推荐 3.10）
操作系统：Linux / macOS / Windows
一个 可公网访问的静态文件服务（用于图片和音频 URL）

⚠️ 火山引擎接口要求：

图片和音频 URL 必须可以被公网直接访问

三、依赖安装

1️⃣ 创建虚拟环境（强烈推荐）

 python -m venv venv source venv/bin/activate

Windows：

 venv\\Scripts\\activate

2️⃣ 安装 Python 依赖

直接安装：

 pip install streamlit requests pillow numpy

或使用 requirements.txt：

 streamlit>=1.30 requests>=2.28 Pillow>=9.5 numpy>=1.23

 pip install -r requirements.txt

四、目录结构说明

 . ├── app.py # Streamlit 主程序 ├── res/ # 生成的视频结果保存目录 ├── requirements.txt # Python 依赖 └── README.md

请确保 res 目录存在：

mkdir -p res

五、静态文件服务配置（非常重要）

项目中会将 上传的图片 / 音频保存到本地目录，并通过 HTTP 方式对外暴露。

示例配置（本地测试）

 UPLOAD_DIR ="/home/yourname/data/uploads" PUBLIC_BASE_URL ="http://你的IP:8000"

启动一个简单的 HTTP 服务：

cd /home/yourname/data/uploads python -m http.server 8000

生产环境建议使用：

nginx

caddy

cloudflared

生产环境配置步骤

安装cloudflared

# 下载wget https://github.com/cloudflare/cloudflared/releases/latest/download/cloudflared-linux-amd64 # 改名mv cloudflared-linux-amd64 cloudflared # 加执行权限chmod +x cloudflared # 移到 PATHsudomv cloudflared /usr/local/bin/

启动运行

本地启动 HTTP 服务

cd /home/yourname/data/uploads python -m http.server 8000

新开一个终端，启动隧道

 cloudflared tunnel --url http://localhost:8000

会看到类似输出：

https://random-name.trycloudflare.com

访问你的音频

https://random-name.trycloudflare.com/test.mp3

六、启动项目

 streamlit run app.py

浏览器访问：

 http://localhost:8501

七、使用流程说明

打开页面，输入 Access Key / Secret Key
上传一张 人物图片
上传一段 音频文件
（可选）输入 Prompt 描述
点击「开始检测」
从检测到的主体中选择目标（或选择原图）
等待视频生成完成
在线预览并下载生成的视频

八、常见注意事项

建议使用 清晰正脸人物图像
音频时长不宜过长（建议 < 60 秒）
若接口返回失败，请重点检查：
AK / SK 是否正确
图片 / 音频 URL 是否能被公网访问
文件格式是否符合要求

九、适用场景

数字人 / 虚拟人能力演示
内部技术验证
API 调用示例参考
二次开发或功能扩展基础工程

十、项目地址及页面

https://github.com/min-star/omnihuman-api.git

页面展示

十一、免责声明

本项目仅作为 火山引擎即梦 API 使用示例（Demo）。

生成效果、接口能力、配额限制等以火山引擎官方文档为准。

参考链接：https://jimeng.jianying.com/ai-tool/generate?type=digitalHuman

十二、可扩展方向（建议）

Docker 一键部署
AK / SK 使用环境变量管理
多任务队列 / 并发控制
历史任务与结果管理
Prompt 模板与预设管理

如需进一步定制或扩展，请根据实际业务需求进行二次开发。

Stable Diffusion XL 1.0多场景应用：灵感画廊助力AR滤镜素材批量生成

Stable Diffusion XL 1.0多场景应用：灵感画廊助力AR滤镜素材批量生成 1. 为什么AR团队开始用“灵感画廊”批量产素材？你有没有遇到过这样的情况：AR滤镜项目上线前一周，美术组还在手动抠图、调色、做动效——一张高质量背景图要花3小时，而需求文档里写着“需要50+风格统一的光影场景素材”。更头疼的是，不同滤镜对画面质感要求差异极大：美颜类要柔焦奶油感，赛博朋克类要高对比霓虹光，国风类又得有水墨晕染的呼吸感。传统方式根本跑不赢节奏。直到我们把目光投向 Stable Diffusion XL 1.0 ——不是把它当“图片生成器”，而是当成一个可编程的视觉素材工厂。而“灵感画廊”正是这个工厂里最顺手的一条产线。它不追求炫酷按钮和参数滑块，反而用宣纸底色、衬线字体、大段留白，营造出一种“静坐三分钟，再动笔”的创作节奏。这种克制，恰恰让批量生成这件事变得稳定、可控、可复现。我们实测过：

AI 辅助开发实战：基于树莓派智能家居毕设的高效构建与避坑指南

在基于树莓派的智能家居毕业设计中，很多同学都遇到过相似的困境：树莓派算力有限，跑个复杂的AI模型就卡顿；传感器数据五花八门，处理起来容易出错；想把模型部署到边缘端，步骤繁琐，调试过程更是让人头大。整个项目就像在走钢丝，既要保证功能，又要兼顾性能和稳定性。最近，我尝试将AI辅助开发工具和轻量级AI推理框架结合起来，重新梳理了整个开发流程，发现效率提升非常明显。这篇文章，我就来分享一下如何利用这些工具，高效、稳定地构建一个智能家居毕设系统，并附上一些实践中总结的“避坑”经验。 1. 背景与核心痛点：为什么需要AI辅助开发？传统的树莓派智能家居项目开发，通常有几个绕不开的难题： * 硬件资源捉襟见肘：树莓派（尤其是Zero或3B+等型号）的内存和CPU性能有限。直接部署未经优化的TensorFlow或PyTorch模型，很容易导致系统响应迟缓甚至崩溃。 * 模型部署“从入门到放弃”：将PC上训练好的模型移植到ARM架构的树莓派上，涉及框架版本、依赖库、算子兼容性等一系列问题，环境配置就能耗掉大量时间。 * 调试过程“黑盒”化：当系统集成传感器、执行器、网络服务和AI推理后，

如何高效管理Stable Diffusion WebUI模型：从入门到精通的完整指南

如何高效管理Stable Diffusion WebUI模型：从入门到精通的完整指南【免费下载链接】stable-diffusion-webuiStable Diffusion web UI 项目地址: https://gitcode.com/GitHub_Trending/st/stable-diffusion-webui Stable Diffusion WebUI是一款功能强大的AI绘图工具，通过模型管理功能，用户可以轻松切换不同风格的AI绘画模型，实现多样化的创作需求。本文将详细介绍Stable Diffusion WebUI的模型管理方法，帮助新手快速掌握模型的安装、加载和切换技巧。模型存放路径设置 Stable Diffusion WebUI的模型文件默认存放在项目目录下的models/Stable-diffusion文件夹中。根据modules/sd_models.py中的定义，系统会自动识别该路径下的模型文件： model_dir = "Stable-diffusion" model_path = os.path.abspath(os.path.

FPGA DDR3实战（二）：手把手教你仿真DDR3（MIG IP核）

《FPGA DDR3权威指南》系列导航《FPGA DDR3权威指南》系列旨在从零到一带你彻底掌握DDR3设计精髓，关注我，你可以： 1. 系统学习，避免知识碎片化。 2. 获得更新提醒，不错过任何一篇干货本篇是该系列的第二篇内容上一篇：FPGA DDR3实战（一）：详解Xilinx MIG IP核配置_mig ip核轻松配置ddr3-ZEEKLOG博客下一篇：FPGA DDR3实战（三）：使用AXI VIP作为主设备进行DDR3工程级仿真-ZEEKLOG博客一：引言在上一篇《FPGA DDR3实战（一）：详解Xilinx MIG IP核配置》中，我们成功配置并生成了一个MIG IP核。然而，直接将未经充分验证的逻辑下载到板卡上是极其危险的——时序违例、初始化失败等问题轻则导致功能异常，重则损坏硬件。本篇将为你解锁FPGA开发的“安全区”：通过仿真，