一、前言
AI 大模型技术的火爆,让 AI 视频赛道也变得热闹。以往让很多人觉得视频制作领域是一个很难跨越的障碍,AI 大模型的兴起之后,同时也带动了 AI 视频技术的革新,不少厂商纷纷加入 AI 视频的争夺,毕竟短视频经历了多年的沉淀之后,已经成为大多数日常生活中不可或缺的一部分。
二、AI 视频概述
2.1 什么是 AI 视频
AI 视频是指利用人工智能(AI)技术生成、编辑、增强或分析视频内容的过程和结果。通过 AI 技术,视频制作、处理和优化的效率得到了显著提升,同时也为创意表达和内容创作带来了更多可能性。AI 视频的核心在于利用机器学习、计算机视觉、自然语言处理等技术,自动化或智能化地完成视频相关的任务。
2.2 AI 视频核心特点
- 高效性:大幅缩短视频制作周期,从数天缩短至分钟级。
- 低成本:减少人力、场地及硬件投入。
- 创意化:突破物理限制,实现传统拍摄难以完成的视觉效果。
- 可定制:根据文本或图片指令精准控制画面内容。
2.3 AI 视频应用场景
- 营销宣传:快速生成产品演示视频。
- 教育培训:制作教学动画与知识科普视频。
- 娱乐创作:短视频脚本可视化与特效合成。
- 新闻播报:虚拟数字人播报新闻。
三、通义万相介绍
3.1 通义万相概述
通义万相是阿里云推出的 AI 艺术创作平台,支持文生图、图像风格迁移、人脸重绘等多种功能,近期也扩展了视频生成能力。
3.1.1 什么是通义万相
它是基于大规模多模态模型构建的生成式 AI 工具,旨在降低专业设计门槛,让普通用户也能通过简单指令获得高质量视觉内容。
3.2 通义万相核心特点
- 多模态支持:涵盖绘图、修图、视频生成。
- 中文优化:对中文提示词理解更准确。
- 生态集成:与阿里云其他服务无缝对接。
3.3 通义万相技术特点
采用扩散模型(Diffusion Model)架构,结合 Transformer 进行语义理解,确保生成内容的连贯性与逻辑性。
3.4 通义万相应用场景
适用于电商海报、社交媒体配图、短视频素材生成等场景。
四、DeepSeek + 通义万相制作 AI 视频流程
4.1 DeepSeek + 通义万相制作视频优势
4.1.1 DeepSeek 优势
DeepSeek 作为大语言模型,擅长逻辑推理与文本生成,可用于编写详细的视频脚本、分镜描述及 Prompt 优化。
4.1.2 通义万相视频生成优势
通义万相提供稳定的视频生成接口,支持将文本描述转化为动态画面,且画质清晰。
4.2 操作过程
4.2.1 使用 DeepSeek 生成视频脚本
- 确定视频主题。
- 向 DeepSeek 输入需求,例如:'请为一个科技产品介绍生成 30 秒的视频脚本,包含画面描述和旁白'。
- 获取结构化输出,提取关键画面提示词。
4.2.2 使用通义万相生成视频
- 登录通义万相平台。
- 选择'视频生成'功能。


