【AIGC】即梦omnihuaman-api调用实现

即梦数字人视频生成(Streamlit Demo)

基于 火山引擎即梦(Jimeng)CV API 的数字人视频生成示例项目。

支持 图片 + 音频驱动 的数字人视频生成流程,集成了主体检测、Mask 选择、Prompt 控制、视频生成与下载等完整功能,适合 内部测试 / 技术演示 / 二次开发


一、功能概览

✅ 核心功能

  • 🔐 AK / SK 在线填写
  • 支持火山引擎 Access Key / Secret Key 在页面中直接输入
  • 无需写死在代码中,便于多账号切换
  • api key申请地址:https://console.volcengine.com/iam/keymanage
  • 🖼 图片上传(人物图像)
  • 支持 JPG / PNG 格式
  • 自动保存到本地并生成公网可访问 URL
  • 🎵 音频上传(驱动音频)
  • 支持 MP3 / WAV 格式
  • 作为数字人说话 / 表情驱动音频
  • 🔍 人物 / 主体检测
  • 调用即梦目标检测接口
  • 自动识别图片中的多个主体
  • 返回每个主体对应的 Mask
  • ✂️ Mask 裁剪与可视化预览
  • 根据 Mask 自动裁剪主体区域
  • 按最长边缩放,统一预览尺寸
  • 🧩 主体选择机制
  • 可从多个检测到的主体中选择
  • 支持「不使用 Mask,直接使用原图」模式
  • ✏️ Prompt 驱动控制
  • 支持输入文本 Prompt
  • 用于控制表情、稳定性、真实感、风格等
  • 🎬 数字人视频生成
  • 提交视频生成任务
  • 自动轮询任务状态
  • 📥 视频结果展示与下载
  • 生成完成后可直接在线播放
  • 支持下载 MP4 文件
  • 视频按「时间 + UUID」自动命名并保存

二、运行环境要求

  • Python ≥ 3.9(推荐 3.10)
  • 操作系统:Linux / macOS / Windows
  • 一个 可公网访问的静态文件服务(用于图片和音频 URL)
⚠️ 火山引擎接口要求:
图片和音频 URL 必须可以被公网直接访问

三、依赖安装

1️⃣ 创建虚拟环境(强烈推荐)

 python -m venv venv source venv/bin/activate 

Windows:

 venv\\Scripts\\activate 

2️⃣ 安装 Python 依赖

直接安装:

 pip install streamlit requests pillow numpy 

或使用 requirements.txt

 streamlit>=1.30 requests>=2.28 Pillow>=9.5 numpy>=1.23 
 pip install -r requirements.txt 

四、目录结构说明

 . ├── app.py # Streamlit 主程序 ├── res/ # 生成的视频结果保存目录 ├── requirements.txt # Python 依赖 └── README.md 

请确保 res 目录存在:

mkdir -p res 

五、静态文件服务配置(非常重要)

项目中会将 上传的图片 / 音频保存到本地目录,并通过 HTTP 方式对外暴露。

示例配置(本地测试)

 UPLOAD_DIR ="/home/yourname/data/uploads" PUBLIC_BASE_URL ="http://你的IP:8000"

启动一个简单的 HTTP 服务:

cd /home/yourname/data/uploads python -m http.server 8000
生产环境建议使用:
nginx
caddy
cloudflared

生产环境配置步骤

  • 安装cloudflared
# 下载wget https://github.com/cloudflare/cloudflared/releases/latest/download/cloudflared-linux-amd64 # 改名mv cloudflared-linux-amd64 cloudflared # 加执行权限chmod +x cloudflared # 移到 PATHsudomv cloudflared /usr/local/bin/ 
  • 启动运行

本地启动 HTTP 服务

cd /home/yourname/data/uploads python -m http.server 8000

新开一个终端,启动隧道

 cloudflared tunnel --url http://localhost:8000 

会看到类似输出:

https://random-name.trycloudflare.com

访问你的音频

https://random-name.trycloudflare.com/test.mp3

六、启动项目

 streamlit run app.py 

浏览器访问:

 http://localhost:8501 

七、使用流程说明

  1. 打开页面,输入 Access Key / Secret Key
  2. 上传一张 人物图片
  3. 上传一段 音频文件
  4. (可选)输入 Prompt 描述
  5. 点击「开始检测」
  6. 从检测到的主体中选择目标(或选择原图)
  7. 等待视频生成完成
  8. 在线预览并下载生成的视频

八、常见注意事项

  • 建议使用 清晰正脸人物图像
  • 音频时长不宜过长(建议 < 60 秒)
  • 若接口返回失败,请重点检查:
  • AK / SK 是否正确
  • 图片 / 音频 URL 是否能被公网访问
  • 文件格式是否符合要求

九、适用场景

  • 数字人 / 虚拟人能力演示
  • 内部技术验证
  • API 调用示例参考
  • 二次开发或功能扩展基础工程

十、项目地址及页面

  • https://github.com/min-star/omnihuman-api.git

页面展示

在这里插入图片描述

十一、免责声明

本项目仅作为 火山引擎即梦 API 使用示例(Demo)

生成效果、接口能力、配额限制等以火山引擎官方文档为准。

参考链接:https://jimeng.jianying.com/ai-tool/generate?type=digitalHuman


十二、可扩展方向(建议)

  • Docker 一键部署
  • AK / SK 使用环境变量管理
  • 多任务队列 / 并发控制
  • 历史任务与结果管理
  • Prompt 模板与预设管理

如需进一步定制或扩展,请根据实际业务需求进行二次开发。

Read more

前端动画库:让你的网站动起来

前端动画库:让你的网站动起来 毒舌时刻 前端动画?这不是用CSS就够了吗? "CSS动画简单,我只用CSS"——结果复杂动画难以实现, "JavaScript动画性能差,我不用"——结果交互体验差, "Framer Motion?GSAP?没听说过,肯定不如CSS"——结果错过了更强大的动画能力。 醒醒吧,前端动画不是简单的CSS过渡,而是需要根据场景选择合适的工具! 为什么你需要这个? * 用户体验:流畅的动画提升用户体验 * 交互反馈:动画可以提供清晰的交互反馈 * 视觉吸引力:动画让网站更具视觉吸引力 * 品牌识别:独特的动画风格可以强化品牌识别 反面教材 /* 反面教材:过度使用CSS动画 */ .animation { /* 复杂的CSS动画,难以维护 */ animation: rotate 2s linear infinite, scale 1s ease-in-out infinite

Qwen3-32B开源可部署实践:Clawdbot Web网关+企业微信/钉钉集成指南

Qwen3-32B开源可部署实践:Clawdbot Web网关+企业微信/钉钉集成指南 1. 为什么需要这个组合:从大模型能力到办公场景落地 你有没有遇到过这样的情况:团队刚部署好Qwen3-32B,本地跑得飞快,但业务部门同事却说“用不上”?不是模型不好,而是缺了一座桥——一座把强大推理能力,稳稳接到日常办公入口的桥。 Clawdbot就是这座桥。它不替换你的Qwen3-32B,也不要求你改模型、重训练,而是用极轻量的方式,把Ollama托管的Qwen3-32B,变成企业微信里能直接@提问的AI助手,或是钉钉群中自动响应任务的智能协作者。 关键在于“直连Web网关”这四个字。它意味着:没有中间服务层、没有额外API网关、不走公网转发——Qwen3-32B的响应,从Ollama输出那一刻起,经由Clawdbot内置代理,毫秒级抵达聊天界面。这不是演示Demo,而是已在线上环境稳定运行超47天的真实部署方案。 本文不讲原理推导,不列参数表格,只聚焦三件事: 怎么让Qwen3-32B在Clawdbot里真正“活”起来; 怎么把Web网关8080端口安全、稳定地映射到18789对

@anthropic-ai/claude-code 快速上手指南

本文重点:快速启动项目、配置 API、常用操作,让开发者立即开始实战,命令清单放在最后参考。 一、安装及配置秘钥 说明:Claude Code 依赖 git 和 npm,这里不赘述基础安装。 1.1 安装 Claude Code 升级或首次安装: npminstall-g @anthropic-ai/claude-code ⚠️ 不同版本支持的命令略有差异,最终以 /help 输出为准。 1.2 配置 API 配置文件路径: 系统路径WindowsC:\Users\用户名\.config\claude-code\config.jsonLinux/Mac~/.config/claude-code/config.json 参考:https://platform.

2026年04月03日全球AI前沿动态

一句话总结 2026年4月2日,AI领域呈现"巨头融资与战略收缩并存、代码泄露与安全危机交织、多模态编程模型密集发布、物理AI与具身智能加速落地"的复杂图景:OpenAI完成1220亿美元创纪录融资却关闭Sora项目,Anthropic因Claude Code 51万行源码泄露暴露内部KAIROS原生智能体架构,智谱与阿里分别推出GLM-5V-Turbo和Qwen3.6-Plus挑战视觉编程与代码生成能力,Vibe Coding运动引发开源社区对代码质量与安全的集体反思,同时机器人操控、自动驾驶与AI芯片设计领域出现多项突破性技术。 一、模型与技术突破 1.1 通用大模型(大语言模型与多模态模型) 智谱AI:发布GLM-5V-Turbo多模态Coding基座模型,采用原生多模态融合架构,预训练阶段深度融合视觉与文本能力,支持200k上下文窗口,在Design2Code基准测试中以94.8分超越竞争对手,可直接从设计稿、网页截图生成可运行代码,已上线智谱MaaS平台与chat.z.ai。 阿里通义实验室:发布Qwen3.6-Plus编程模型,默认支持100万字符上下文窗口,优化Codi