【AIGC】即梦omnihuaman-api调用实现

优质文章学习记录

07 Apr 2026 — 4 min read

即梦数字人视频生成（Streamlit Demo）

基于 火山引擎即梦（Jimeng）CV API 的数字人视频生成示例项目。

支持 图片 + 音频驱动 的数字人视频生成流程，集成了主体检测、Mask 选择、Prompt 控制、视频生成与下载等完整功能，适合 内部测试 / 技术演示 / 二次开发。

一、功能概览

✅ 核心功能

🔐 AK / SK 在线填写
支持火山引擎 Access Key / Secret Key 在页面中直接输入
无需写死在代码中，便于多账号切换
api key申请地址：https://console.volcengine.com/iam/keymanage
🖼 图片上传（人物图像）
支持 JPG / PNG 格式
自动保存到本地并生成公网可访问 URL
🎵 音频上传（驱动音频）
支持 MP3 / WAV 格式
作为数字人说话 / 表情驱动音频
🔍 人物 / 主体检测
调用即梦目标检测接口
自动识别图片中的多个主体
返回每个主体对应的 Mask
✂️ Mask 裁剪与可视化预览
根据 Mask 自动裁剪主体区域
按最长边缩放，统一预览尺寸
🧩 主体选择机制
可从多个检测到的主体中选择
支持「不使用 Mask，直接使用原图」模式
✏️ Prompt 驱动控制
支持输入文本 Prompt
用于控制表情、稳定性、真实感、风格等
🎬 数字人视频生成
提交视频生成任务
自动轮询任务状态
📥 视频结果展示与下载
生成完成后可直接在线播放
支持下载 MP4 文件
视频按「时间 + UUID」自动命名并保存

二、运行环境要求

Python ≥ 3.9（推荐 3.10）
操作系统：Linux / macOS / Windows
一个 可公网访问的静态文件服务（用于图片和音频 URL）

⚠️ 火山引擎接口要求：

图片和音频 URL 必须可以被公网直接访问

三、依赖安装

1️⃣ 创建虚拟环境（强烈推荐）

 python -m venv venv source venv/bin/activate

Windows：

 venv\\Scripts\\activate

2️⃣ 安装 Python 依赖

直接安装：

 pip install streamlit requests pillow numpy

或使用 requirements.txt：

 streamlit>=1.30 requests>=2.28 Pillow>=9.5 numpy>=1.23

 pip install -r requirements.txt

四、目录结构说明

 . ├── app.py # Streamlit 主程序 ├── res/ # 生成的视频结果保存目录 ├── requirements.txt # Python 依赖 └── README.md

请确保 res 目录存在：

mkdir -p res

五、静态文件服务配置（非常重要）

项目中会将 上传的图片 / 音频保存到本地目录，并通过 HTTP 方式对外暴露。

示例配置（本地测试）

 UPLOAD_DIR ="/home/yourname/data/uploads" PUBLIC_BASE_URL ="http://你的IP:8000"

启动一个简单的 HTTP 服务：

cd /home/yourname/data/uploads python -m http.server 8000

生产环境建议使用：

nginx

caddy

cloudflared

生产环境配置步骤

安装cloudflared

# 下载wget https://github.com/cloudflare/cloudflared/releases/latest/download/cloudflared-linux-amd64 # 改名mv cloudflared-linux-amd64 cloudflared # 加执行权限chmod +x cloudflared # 移到 PATHsudomv cloudflared /usr/local/bin/

启动运行

本地启动 HTTP 服务

cd /home/yourname/data/uploads python -m http.server 8000

新开一个终端，启动隧道

 cloudflared tunnel --url http://localhost:8000

会看到类似输出：

https://random-name.trycloudflare.com

访问你的音频

https://random-name.trycloudflare.com/test.mp3

六、启动项目

 streamlit run app.py

浏览器访问：

 http://localhost:8501

七、使用流程说明

打开页面，输入 Access Key / Secret Key
上传一张 人物图片
上传一段 音频文件
（可选）输入 Prompt 描述
点击「开始检测」
从检测到的主体中选择目标（或选择原图）
等待视频生成完成
在线预览并下载生成的视频

八、常见注意事项

建议使用 清晰正脸人物图像
音频时长不宜过长（建议 < 60 秒）
若接口返回失败，请重点检查：
AK / SK 是否正确
图片 / 音频 URL 是否能被公网访问
文件格式是否符合要求

九、适用场景

数字人 / 虚拟人能力演示
内部技术验证
API 调用示例参考
二次开发或功能扩展基础工程

十、项目地址及页面

https://github.com/min-star/omnihuman-api.git

页面展示

十一、免责声明

本项目仅作为 火山引擎即梦 API 使用示例（Demo）。

生成效果、接口能力、配额限制等以火山引擎官方文档为准。

参考链接：https://jimeng.jianying.com/ai-tool/generate?type=digitalHuman

十二、可扩展方向（建议）

Docker 一键部署
AK / SK 使用环境变量管理
多任务队列 / 并发控制
历史任务与结果管理
Prompt 模板与预设管理

如需进一步定制或扩展，请根据实际业务需求进行二次开发。

PyTorch生成式人工智能（29）——基于Transformer生成音乐

PyTorch生成式人工智能（29）——基于Transformer生成音乐 * 0. 前言 * 1. 音乐 Transformer 简介 * 1.1 基于演奏的音乐表示 * 1.2 音乐 Transformer 架构 * 1.3 训练音乐 Transformer 流程 * 2. 音乐片段分词 * 2.1 下载训练数据 * 2.2 MIDI 文件分词 * 2.3 准备训练数据 * 3. 构建音乐生成 Transformer * 3.1 音乐 Transformer 超参数 * 3.2 构建音乐Transformer * 4 训练和使用音乐Transformer * 4.1 训练音乐Transformer

【OpenClaw从入门到精通】第41篇：2026年4月最新版——从零开始搭建你的第一个安全AI助理（保姆级实战教程）

摘要：2026年3月CNCERT联合发布《OpenClaw安全使用实践指南》后，安全部署成为OpenClaw使用的核心前提。本文针对新手及进阶用户，基于官方安全指引，提供三套实战部署方案：阿里云一键部署（新手首选）、Docker容器隔离部署（进阶推荐）、本地安全安装（测试专用），并详解阿里云百炼Coding Plan API接入流程。全文涵盖环境准备、分步实操、安全加固、问题排查等全流程，所有命令可直接复制执行，无需依赖外部代码库。通过本文，读者可零基础搭建安全隔离的OpenClaw AI助理，兼顾实用性与安全性，最低成本仅38元/年即可实现7×24小时稳定运行。优质专栏欢迎订阅！【OpenClaw从入门到精通】【DeepSeek深度应用】【Python高阶开发：AI自动化与数据工程实战】【YOLOv11工业级实战】【机器视觉：C# + HALCON】【大模型微调实战：平民级微调技术全解】【人工智能之深度学习】【AI 赋能：Python 人工智能应用实战】【数字孪生与仿真技术实战指南】【AI工程化落地与YOLOv8/v9实战】【C#

[特殊字符]阿里开源神器！一行代码让网站秒变 AI 原生应用，Page-Agent 太强了！

前言最近发现了一个超厉害的开源项目——Page-Agent，这是阿里巴巴开源的浏览器内 GUI Agent 框架，只需要一行代码就能让你的网站秒变 AI 原生应用！今天就来给大家详细扒一扒这个神器。什么是 Page-Agent？ Page-Agent 是一个纯前端的浏览器内 GUI Agent 框架，它的核心理念是：让任何网站都能轻松集成 AI 能力，无需后端部署。核心特点 ✅ 纯前端方案 - 无需后端服务器，直接在浏览器内运行 ✅ 支持多种 LLM - OpenAI、Claude、DeepSeek、Qwen、Gemini、Grok、Ollama、Kimi、GLM、LLaMA 等 ✅ 隐私优先 - 所有操作都在浏览器内完成，数据不会外泄 ✅ 人机协同 - 内置确认面板，用户可以实时查看和确认

M系列Mac保姆级教程：Clawdbot安装+API配置，30分钟解锁AI自动化！

前言 Clawdbot作为超实用的AI自动化工具，能帮你实现网页自动操控、办公流程自动化、本地文件管理等功能，搭配M系列Mac的低功耗特性，堪称效率神器！很多Mac用户安装时会遇到「架构不兼容」「API配置失败」「插件加载报错」等问题，这篇教程专为M4/M1-M3芯片MacBook定制，全程ARM原生适配，从环境准备到功能验证一步到位，新手也能轻松上手～一、安装前准备(必看！避坑核心) 1. 系统与工具要求 * 系统版本：macOS 13 Ventura 及以上(M4芯片默认满足，低于该版本先升级：系统设置→通用→软件更新) * 核心依赖：Node.js ≥ 22(必须ARM架构版，避免转译卡顿) * 辅助工具：终端(Launchpad→其他→终端)、Chrome浏览器(ARM原生版) * 网络：需访问外网(对接Claude/Gemini)