我的第一部AIGC电影《编钟》制作幕后

我的第一部AIGC电影《编钟》制作幕后

当今时代,AI已经能制作一些高质量的电影片段。

我在前文就介绍过AIGC创作的一个标准工作流,并计划在两个月内完成一部5分钟的AI微电影。

如今,Seedance2.0这款模型彻底改变了工作流程,并将原定计划2个月的时间,压缩成了两天。

封面.png

目前,该片参与了B站最近举办的视频创作大赛,参加的是三体赛道。

视频链接:https://www.bilibili.com/video/BV11acizcEjR

故事梗概

《编钟》讲述在二向箔打击地球前最后24小时,月球转运站工程师陈末得知航道封锁、末日将至,毅然驾驶一架濒临报废的穿梭机逆流返航,只为兑现对盲女小雅的承诺——带她去听两千年前的编钟之声。

gif选段1.gif

城市在恐慌与崩塌中走向终结,空间开始二维化,高楼化作平面残影;陈末穿越混乱,将女儿带入空无一人的博物馆,在老守夜人的引领下敲响曾侯乙编钟。

gif选段2.gif

浑厚钟声穿透濒毁的天地,小雅在声音中“看见”金色的高音、深蓝的低音与绿色的中音,完成了关于“声音颜色”的愿望。

gif选段3.gif

当最后一声钟鸣与二维浪潮同时降临,地球在二向箔的打击下,彻底压缩成二维平面,人类文明的火种也随声音为载体,向外太空传播。

gif选段4.gif

制作复盘

制作了这个五分钟的微电影,主要用到了Gemini、Nano Banana Pro、Seedance2.0和Suno。

确定剧本

首先是选择赛题,题目是:【掩体纪元-二向箔打击中的普通人】人类确认了二向箔的打击警报后,太阳系的人类得知打击将来临,每个人的生命都剩下了最后七天。普通人要如何度过生命中的最后 144 小时?探讨在生命最后一刻的人性力量。

把赛题作为提示词,先让Gemini对此进行头脑风暴,然后选择了一个主题「老父亲带盲女儿完成生日愿望」这个主题进行拓展。

为什么生日愿望最后选择为听编钟呢?因为《三体》这部小说主旨涉及人类文明的延续,无论是威慑纪元还是最后的漂流瓶,核心思想就是让人类在危机下能够把文明的种子播撒出去,留下今生今世的存在的证据。

编钟,是中国的传统打击乐器,始于青铜器时代,可以说是人类最古老的乐器之一,同时,它在西周时期,主要用于祭祀、宴享等礼仪活动,是“周礼”的象征代表。

礼可以视作一种人类文明的秩序。

选择听编钟,不仅有历史的厚重,也寓意着在末日来临时,人类社会秩序崩坏,仍有人存在对秩序的向往。

有了这个主题之后,借助Gemini,很快就完成了一个具体的剧本。

原本我正在对该剧本内容进行分镜拆解,计划先生成每一个分镜的参考图。

image.png

结果,Seedance2.0的出现,让我发现没必要再写分镜了,它根据剧本来演绎的能力极强,超过了大多数二流导演。

生成人物参考图

虽然每一帧的分镜没必要做了,但是人物的参考图还是要做的,主要就是要让视频前后的人物一致性得以保持。

这个故事的主角是父亲和女儿,因此,用Nano Banana Pro做了这两张人物的三视图,以父亲为例:

男主参考.jpg

生成视频片段

Seedance2.0比可灵强的一点在于,它最多能生成15秒的视频。

一个5分钟时长的影片,理论上20段15秒的就够了。

生成单段视频时,输入的剧本内容需要估算一下演绎时间,如果把一段太长的对白放到一个镜头生成,会导致人物的讲话过于急促。

因此,如果一个场景15秒时间不够,那就拆分一下,生成第二段时,把第一段最后一帧场景作为参考图,让它继续生成。

后面剪辑的时候需要注意,两段内容在连接时可能会有细微差异,可以用运动模糊或正反打切镜等效果规避该问题。

此外,我会单独要求AI不要生成背景音乐和字幕,背景音乐和字幕需要剪辑时再来指定,以保证前后的统一性。

同时,会指定特定的摄影机和镜头,以奠定画面的基本基调,参考提示词如下:

不需要背景音乐,不要显示字幕。Cinematic shot on Arri Alexa 35, Cooke cinematic lenses (non-anamorphic), natural bokeh, widescreen cinematic framing, moody cinematic atmosphere, dramatic lighting, subtle film grain, Ultra HD, hyper-realistic --ar 2.39:1 --stylize 150

即便是一个几秒钟就能完成的镜头,我还是会选择让AI生成15s,因为Seedance2.0的创意能力比较强,很可能会产生惊喜的运镜镜头,可以在剪辑时用上。

生成音乐

让AI生成音乐,并不是说AI生成的音乐一定会最契合影片,而是为了规避音乐版权问题。

Suno可以让普通用户每天生成5次音乐。

实测发现,它的提示词遵循能力是有点不足的,我试图让它生成单一乐器演奏的音乐,但发现它始终做不到,一直会出现多乐器混杂的音乐片段。

因此,我会进行多次“抽卡”,然后筛选出某个片段是和影片内容契合的,就选入剪辑。

剪辑

剪辑软件我用的是剪映。

剪映的一大优势在于里面内置了很多特效、转场、音效素材。

尽管Seedance2.0生成的很多片段的音效已经很到位了,但是在某些特殊镜头里,还是需要用到一定的传统处理方式。

比如,影片中有一段是回忆的镜头,处理的方式是先让AI生成一段正常的镜头,然后复制一层,添加模糊特效叠加,再调成暖色调,使其更符合场景中的蜡烛光源表现。

转场用闪白+音效过渡,这样就很有电影感了。

gif素材6.gif

其它片段类似,加入“亿点点”剪辑,整部片子就完成了。

image.png

经验总结

这部影片投资了多少钱呢?大部分工具都是免费的,只有Seedance2.0买了一个月的高级会员,花费¥500。

高级会员是有1.5w积分,做完整部片子只花了5k积分,积分够的一大好处是并行抽卡

现在用的人多,普通用户可能要等半天才能得到一段。高级会员能够更快得到多段视频,然后去挑选。

大部分的镜头,基本上在3次内,就能挑出一段能用的。

但少部分的镜头,能参考的影视素材很少,比如地球被二向箔打击后,陷入二维的场景,就抽了近10次,才得到想要的场景(下次不做太空科幻片了)。

此外,有一些因素是这步片子处理没到位的,比如,主角的参考图,没生成全身像,导致后面的镜头在身体上的处理部分,会存在些许不一致的情况。

还有一点是让AI生成新闻镜头,会出现“火星文”的情况,这种可以通过生成绿幕再后期抠图的方式去解决,不过流程就有点麻烦了,这也是当前AI的局限性之一。

image.png

总之,Seedance2.0极大地简化了创作流程,特别是它能够根据人物参考图来生成声音,后期配音、对口型的问题完全不需要考虑了。

如果你看到这里了,欢迎来个一键三连,助我赛事拿奖,感谢支持。

视频链接:https://www.bilibili.com/video/BV11acizcEjR

Read more

AI-Render终极指南:在Blender中实现免费Stable Diffusion图像渲染

AI-Render终极指南:在Blender中实现免费Stable Diffusion图像渲染 【免费下载链接】AI-RenderStable Diffusion in Blender 项目地址: https://gitcode.com/gh_mirrors/ai/AI-Render 想要在Blender中直接使用强大的AI图像生成功能吗?AI-Render让这一切成为可能!这个开源项目将Stable Diffusion无缝集成到Blender中,让你无需离开3D创作环境就能享受AI渲染的魅力。🎨 什么是AI-Render? AI-Render是一个革命性的Blender插件,它将最先进的Stable Diffusion技术直接嵌入到3D建模软件中。通过简单的操作,你可以在Blender中生成各种风格的图像,从写实照片到动漫插画,从赛博朋克到蒸汽朋克,应有尽有。 AI-Render生成的写实风格室内场景,展示出色的光影和材质表现 为什么选择AI-Render? 完全免费使用 💰 与其他AI工具不同,AI-Render完全开源免费,你不需要支付任何订阅费用就能享受

【大模型】使用llamafactory 训练 qwen2.5-VL 的目标检测任务

【大模型】使用llamafactory 训练 qwen2.5-VL 的目标检测任务

前言 截止到目前,目标检测的功能还是yolo模型落地性更强。但大模型也已经全面开花,所以也尝试下使用大模型来完成目标检测的训练,看看其效果如何,看看它在目标检测上有怎样的优势。 本次选用qwen2.5-VL,一开始使用github上阅读性强的工程训练,总觉得差些意思。 于是决定自己手搓个大模型训练推理工程,emm…,预测效果也是差强人意。 兜兜转转还是使用个高star的工程,先跑通得到想要的效果。后面再阅读核心代码掌握大模型训练过程吧 一 llama factory的部署 【大模型】LLaMA-Factory的环境配置、微调模型与测试 的第二章节,已经介绍了工程安装步骤,整个过程比较流畅。(其余章节介绍了在文本上的大模型微调的过程) 二 llama factory的配置文件介绍 github上给出的训练命令: 以此为切入点,来看看训练自己模型时需要关注的内容,这里先陈列出examples/qwen2_5vl_lora_sft.yamldata/mllm_demo.jsonl2.1 配置文件 【qwen2_5vl_lora_sft.yaml】 该文件中配置了大模型训练过

AI编程工具深度对比:Cursor、Copilot、Trae与Claude Code,2025年开发者该如何选择?

2025年,AI编程助手已从新奇技术演变为生产力核心,但面对众多选择,开发者如何才能找到最适合自己的智能编程伙伴? 一、四大AI编程工具的核心定位与市场格局 2025年的AI编程工具市场已经形成了明显的分层格局。根据最新的开发者使用数据,这些工具不再仅仅是代码补全助手,而是朝着专业化、场景化方向发展。

AIGC实战测评:蓝耘元生代通义万相2.1图生视频的完美部署~

AIGC实战测评:蓝耘元生代通义万相2.1图生视频的完美部署~

文章目录 * 👏什么是图生视频? * 👏通义万相2.1图生视频 * 👏开源仓库代码 * 👏蓝耘元生代部署通义万相2.1图生视频 * 👏平台注册 * 👏部署通义万相2.1图生视频 * 👏使用通义万相2.1图生视频 * 👏总结 👏什么是图生视频? 图生视频是一种通过图像生成技术,结合文本信息生成视频的创新方式。通过输入一张图像和相关的描述文本,系统能够根据这些输入生成一个符合描述的视频。该技术利用深度学习和计算机视觉技术,将静态图像转化为动态视频,实现视觉内容的快速生成。这种技术的应用广泛,涵盖了内容创作、影视制作、广告生成等多个领域。 👏通义万相2.1图生视频 阿里巴巴旗下“通义”品牌宣布,其AI视频生成模型“通义万相Wan”正式推出独立网站,标志着其生成式AI技术的重大进展。新网站现已开放(网址:wan.video),用户可直接登录体验“文本生成视频”和“图像生成视频”功能,无需本地部署,极大降低了使用门槛。此外,每天登录网站还可获赠积分,激励用户持续探索。 文章链接:https: