【AIGC】即梦omnihuaman-api调用实现

优质文章学习记录

11 Apr 2026 — 4 min read

即梦数字人视频生成（Streamlit Demo）

基于 火山引擎即梦（Jimeng）CV API 的数字人视频生成示例项目。

支持 图片 + 音频驱动 的数字人视频生成流程，集成了主体检测、Mask 选择、Prompt 控制、视频生成与下载等完整功能，适合 内部测试 / 技术演示 / 二次开发。

一、功能概览

✅ 核心功能

🔐 AK / SK 在线填写
支持火山引擎 Access Key / Secret Key 在页面中直接输入
无需写死在代码中，便于多账号切换
api key申请地址：https://console.volcengine.com/iam/keymanage
🖼 图片上传（人物图像）
支持 JPG / PNG 格式
自动保存到本地并生成公网可访问 URL
🎵 音频上传（驱动音频）
支持 MP3 / WAV 格式
作为数字人说话 / 表情驱动音频
🔍 人物 / 主体检测
调用即梦目标检测接口
自动识别图片中的多个主体
返回每个主体对应的 Mask
✂️ Mask 裁剪与可视化预览
根据 Mask 自动裁剪主体区域
按最长边缩放，统一预览尺寸
🧩 主体选择机制
可从多个检测到的主体中选择
支持「不使用 Mask，直接使用原图」模式
✏️ Prompt 驱动控制
支持输入文本 Prompt
用于控制表情、稳定性、真实感、风格等
🎬 数字人视频生成
提交视频生成任务
自动轮询任务状态
📥 视频结果展示与下载
生成完成后可直接在线播放
支持下载 MP4 文件
视频按「时间 + UUID」自动命名并保存

二、运行环境要求

Python ≥ 3.9（推荐 3.10）
操作系统：Linux / macOS / Windows
一个 可公网访问的静态文件服务（用于图片和音频 URL）

⚠️ 火山引擎接口要求：

图片和音频 URL 必须可以被公网直接访问

三、依赖安装

1️⃣ 创建虚拟环境（强烈推荐）

 python -m venv venv source venv/bin/activate

Windows：

 venv\\Scripts\\activate

2️⃣ 安装 Python 依赖

直接安装：

 pip install streamlit requests pillow numpy

或使用 requirements.txt：

 streamlit>=1.30 requests>=2.28 Pillow>=9.5 numpy>=1.23

 pip install -r requirements.txt

四、目录结构说明

 . ├── app.py # Streamlit 主程序 ├── res/ # 生成的视频结果保存目录 ├── requirements.txt # Python 依赖 └── README.md

请确保 res 目录存在：

mkdir -p res

五、静态文件服务配置（非常重要）

项目中会将 上传的图片 / 音频保存到本地目录，并通过 HTTP 方式对外暴露。

示例配置（本地测试）

 UPLOAD_DIR ="/home/yourname/data/uploads" PUBLIC_BASE_URL ="http://你的IP:8000"

启动一个简单的 HTTP 服务：

cd /home/yourname/data/uploads python -m http.server 8000

生产环境建议使用：

nginx

caddy

cloudflared

生产环境配置步骤

安装cloudflared

# 下载wget https://github.com/cloudflare/cloudflared/releases/latest/download/cloudflared-linux-amd64 # 改名mv cloudflared-linux-amd64 cloudflared # 加执行权限chmod +x cloudflared # 移到 PATHsudomv cloudflared /usr/local/bin/

启动运行

本地启动 HTTP 服务

cd /home/yourname/data/uploads python -m http.server 8000

新开一个终端，启动隧道

 cloudflared tunnel --url http://localhost:8000

会看到类似输出：

https://random-name.trycloudflare.com

访问你的音频

https://random-name.trycloudflare.com/test.mp3

六、启动项目

 streamlit run app.py

浏览器访问：

 http://localhost:8501

七、使用流程说明

打开页面，输入 Access Key / Secret Key
上传一张 人物图片
上传一段 音频文件
（可选）输入 Prompt 描述
点击「开始检测」
从检测到的主体中选择目标（或选择原图）
等待视频生成完成
在线预览并下载生成的视频

八、常见注意事项

建议使用 清晰正脸人物图像
音频时长不宜过长（建议 < 60 秒）
若接口返回失败，请重点检查：
AK / SK 是否正确
图片 / 音频 URL 是否能被公网访问
文件格式是否符合要求

九、适用场景

数字人 / 虚拟人能力演示
内部技术验证
API 调用示例参考
二次开发或功能扩展基础工程

十、项目地址及页面

https://github.com/min-star/omnihuman-api.git

页面展示

十一、免责声明

本项目仅作为 火山引擎即梦 API 使用示例（Demo）。

生成效果、接口能力、配额限制等以火山引擎官方文档为准。

参考链接：https://jimeng.jianying.com/ai-tool/generate?type=digitalHuman

十二、可扩展方向（建议）

Docker 一键部署
AK / SK 使用环境变量管理
多任务队列 / 并发控制
历史任务与结果管理
Prompt 模板与预设管理

如需进一步定制或扩展，请根据实际业务需求进行二次开发。

前端动画库：让你的网站动起来

前端动画库：让你的网站动起来毒舌时刻前端动画？这不是用CSS就够了吗？ "CSS动画简单，我只用CSS"——结果复杂动画难以实现， "JavaScript动画性能差，我不用"——结果交互体验差， "Framer Motion？GSAP？没听说过，肯定不如CSS"——结果错过了更强大的动画能力。醒醒吧，前端动画不是简单的CSS过渡，而是需要根据场景选择合适的工具！为什么你需要这个？ * 用户体验：流畅的动画提升用户体验 * 交互反馈：动画可以提供清晰的交互反馈 * 视觉吸引力：动画让网站更具视觉吸引力 * 品牌识别：独特的动画风格可以强化品牌识别反面教材 /* 反面教材：过度使用CSS动画 */ .animation { /* 复杂的CSS动画，难以维护 */ animation: rotate 2s linear infinite, scale 1s ease-in-out infinite

Qwen3-32B开源可部署实践：Clawdbot Web网关+企业微信/钉钉集成指南

Qwen3-32B开源可部署实践：Clawdbot Web网关+企业微信/钉钉集成指南 1. 为什么需要这个组合：从大模型能力到办公场景落地你有没有遇到过这样的情况：团队刚部署好Qwen3-32B，本地跑得飞快，但业务部门同事却说“用不上”？不是模型不好，而是缺了一座桥——一座把强大推理能力，稳稳接到日常办公入口的桥。 Clawdbot就是这座桥。它不替换你的Qwen3-32B，也不要求你改模型、重训练，而是用极轻量的方式，把Ollama托管的Qwen3-32B，变成企业微信里能直接@提问的AI助手，或是钉钉群中自动响应任务的智能协作者。关键在于“直连Web网关”这四个字。它意味着：没有中间服务层、没有额外API网关、不走公网转发——Qwen3-32B的响应，从Ollama输出那一刻起，经由Clawdbot内置代理，毫秒级抵达聊天界面。这不是演示Demo，而是已在线上环境稳定运行超47天的真实部署方案。本文不讲原理推导，不列参数表格，只聚焦三件事：怎么让Qwen3-32B在Clawdbot里真正“活”起来；怎么把Web网关8080端口安全、稳定地映射到18789对

@anthropic-ai/claude-code 快速上手指南

本文重点：快速启动项目、配置 API、常用操作，让开发者立即开始实战，命令清单放在最后参考。一、安装及配置秘钥说明：Claude Code 依赖 git 和 npm，这里不赘述基础安装。 1.1 安装 Claude Code 升级或首次安装： npminstall-g @anthropic-ai/claude-code ⚠️ 不同版本支持的命令略有差异，最终以 /help 输出为准。 1.2 配置 API 配置文件路径：系统路径WindowsC:\Users\用户名\.config\claude-code\config.jsonLinux/Mac~/.config/claude-code/config.json 参考：https://platform.

2026年04月03日全球AI前沿动态

一句话总结 2026年4月2日，AI领域呈现"巨头融资与战略收缩并存、代码泄露与安全危机交织、多模态编程模型密集发布、物理AI与具身智能加速落地"的复杂图景：OpenAI完成1220亿美元创纪录融资却关闭Sora项目，Anthropic因Claude Code 51万行源码泄露暴露内部KAIROS原生智能体架构，智谱与阿里分别推出GLM-5V-Turbo和Qwen3.6-Plus挑战视觉编程与代码生成能力，Vibe Coding运动引发开源社区对代码质量与安全的集体反思，同时机器人操控、自动驾驶与AI芯片设计领域出现多项突破性技术。一、模型与技术突破 1.1 通用大模型（大语言模型与多模态模型）智谱AI：发布GLM-5V-Turbo多模态Coding基座模型，采用原生多模态融合架构，预训练阶段深度融合视觉与文本能力，支持200k上下文窗口，在Design2Code基准测试中以94.8分超越竞争对手，可直接从设计稿、网页截图生成可运行代码，已上线智谱MaaS平台与chat.z.ai。阿里通义实验室：发布Qwen3.6-Plus编程模型，默认支持100万字符上下文窗口，优化Codi