Seedance 2.0 引入了多模态控制能力,显著降低了 AI 视频创作的门槛。它不再局限于单一的文字描述或首帧图,而是支持图片、视频、音频和文本的自由组合,让用户能更精准地指挥 AI 生成内容。
核心功能与参数
该工具的核心在于多模态输入。用户可同时上传多种素材,指定各自用途,模型会将其融合生成完整视频。
| 参数 | 说明 |
| 图片输入 | 最多 9 张,用于指定角色、场景或风格 |
| 视频输入 | 最多 3 个,总时长不超过 15 秒,参考运镜与节奏 |
| 音频输入 | 支持 MP3,最多 3 个,总时长不超过 15 秒,指定配乐或音色 |
| 文字输入 | 自然语言描述剧情与动作 |
| 生成时长 | 4-15 秒,可自由选择 |
| 声音输出 | 自带音效和配乐 |
| 文件总上限 | 所有素材加起来最多 12 个文件 |
建议优先上传对画面风格和节奏影响最大的素材,合理分配数量。

操作流程详解
首先,在平台界面找到 Seedance 2.0 入口。通常有两个选项:首尾帧入口适用于仅有一张图加文字的场景;全能参考入口则支持多模态组合。对于大多数复杂需求,建议选择全能参考模式以发挥最大能力。

接着,点击上传按钮从本地选择文件。图片、视频、音频均可直接拖入。上传成功后,素材会显示在输入框区域,鼠标悬停可查看预览。
随后是关键的指令分配环节。你需要在提示词中使用 @素材名 来明确每个素材的用途。例如:
- @图片 1 作为首帧
- @视频 1 参考镜头语言
- @音频 1 用于配乐
可以通过在输入框打@符号自动弹出列表选择,或点击工具栏的@按钮唤起。正确写法示例如下:
指定首帧和参考:@图片 1 作为首帧,参考 @视频 1 的镜头语言,@音频 1 用于配乐 指定角色形象:@图片 1 的女生作为主角,@图片 2 的男生作为配角 指定运镜参考:完全参考 @视频 1 的所有运镜效果和转场
注意检查每个@引用是否对应正确的素材,避免将图片误作视频引用导致生成混乱。鼠标悬停在@后的素材上可再次确认预览。

完成素材分配后,编写自然语言提示词描述画面和动作。以下是几个实用技巧:
按时间线分段写。若视频包含多个情节转折,建议按秒数分段描述,如'0-3 秒画面:男主举起篮球...',这有助于模型把握节奏。
明确说'参考'还是'编辑'。参考意为借鉴镜头运动方式生成新内容,编辑则是在原视频基础上修改。表述清晰能让模型正确响应。
镜头语言写具体。推、拉、摇、移、希区柯克变焦等术语模型均能识别,也可用大白话描述,如'镜头从背后慢慢转到正面'。
连续动作加过渡描述。如需连贯动作,请写明过渡关系,如'角色从跳跃直接过渡到翻滚',避免画面跳切。
最后,在 4 到 15 秒之间选择生成时长。如果是做视频延长,此处选择的时长为新增部分。点击生成等待结果即可。由于 AI 存在随机性,同一输入多次生成的结果会有差异,可挑选最满意的一条。



