开源逆袭!Wan2.1让家用电脑也能跑AI视频生成

开源逆袭!Wan2.1让家用电脑也能跑AI视频生成

文章目录

前言

当商业AI视频模型还在按分钟计费时,Wan2.1开源模型已经实现了平民化突破!这款由国内团队开发的文生视频工具,在VBench榜单上多项指标超越同类闭源产品,尤其擅长生成自然场景和人物动作。最令人惊喜的是硬件门槛——普通家用N卡就能运行,8G显存即可生成720P视频,让独立创作者也能玩转AI视频创作。

作为测试了10+视频模型的创作者,Wan2.1给我的最大惊喜是"场景一致性"。生成"猫咪在客厅玩耍"的视频时,家具位置和光影变化能保持连贯,这点比很多商业模型都强。不过初次使用需要注意:默认参数生成的视频只有3秒,想做长视频需要手动调整帧率。建议先从简单场景入手,熟悉后再尝试复杂镜头。

但开源模型的本地部署特性,也带来了"甜蜜的烦恼":只能在本机使用。有次团队协作做短视频,我用Wan2.1生成的素材,同事必须拷贝工程文件才能继续编辑;客户临时要看样片?只能导出视频发微信。这种"单机作战"模式,让本应提升效率的AI工具反而成了协作瓶颈。

还好cpolar内网穿透工具解决了这个难题!它就像给Wan2.1开了个"远程端口",通过加密隧道让团队成员都能访问我的本地服务🤝。现在我在家用台式机渲染视频,在公司的笔记本也能实时调整参数;客户想看效果?直接发个链接就能在线预览。最关键的是延迟控制得很好,4K视频预览也不会卡顿。这种组合让开源模型实现了"本地算力+云端协作"的双赢!

本文主要介绍如何在Windows系统电脑本地部署ComfyUI并接入通义万相Wan2.1模型,轻松实现使用文字指令生成AI视频,结合cpolar内网穿透工具还能远程在线使用,无需公网IP也不用准备云服务器那么麻烦。

下面就来详细介绍一下如何在本地快速安装并使用它来生成AI视频。

image-20250328170652107

【视频教程】

1.软件准备

1.1 ComfyUI

首先访问ComfyUI的Github下载对应操作系统版本,本例使用Windows系统进行演示,全部所需软件资源链接我会放在文章末尾。

ComfyUI Github:https://github.com/comfyanonymous/ComfyUI

image-20250328115533255

选择免安装版本(本例以适用于N卡的免安装版本0.3.27为例演示)

image-20250328115623927

下载后解压到已定义路径,然后继续下载其他软件:

image-20250328131010965

1.2 文本编码器

现在需要下载文本编码器,大家可以根据显卡内存进行选择,本例中以fp8量化版进行演示,适用于低于8G的显卡,如果显卡内存高于12G,可以选择fp16这个,生成后的视频精度会更高。

文本编码器下载地址:Comfy-Org/Wan_2.1_ComfyUI_repackaged at main

image-20250328134032601

1.3 VAE

然后需要下载VAE,点击download即可:

image-20250328134119724

VAE下载地址:split_files/vae/wan_2.1_vae.safetensors · Comfy-Org/Wan_2.1_ComfyUI_repackaged at main

1.4 视频生成模型

最后还需要下载Wan2.1视频生成模型,如果显卡配置较好,可以选择最完整的32G的模型。本例中以相对显卡要求较低的wan2.1_t2v_1.3B_fp16.safetensors模型进行演示:

image-20250328134504175

注意:建议使用 fp16 版本而不是 bf16 版本,因为它们会产生更好的结果。

质量等级(从高到低):fp16 > bf16 > fp8_scaled > fp8_e4m3fn

视频生成模型下载地址:Comfy-Org/Wan_2.1_ComfyUI_repackaged at main

2.整合配置

现在要把上边准备好的编码器、模型等整合到ComfyUI中,然后导入工作流文件,就能使用它来生成视频了。

首先,把文本编码器 umt5_xxl_fp8_e4m3fn_scaled.safetensors 放入 ComfyUI/models/text_encoders/

image-20250328135303505
image-20250328135816803

第二步,将VAE文件 wan_2.1_vae.safetensors 放入 ComfyUI/models/vae/

image-20250328140305746

第三步,将 Wan 2.1 模型 放入ComfyUI/models/diffusion_models/

image-20250328140453169

最后一步,下载文字转视频所需的 Json 格式的工作流,右键另存为到桌面即可,稍后打开ComfyUI时拖入。

下载地址:comfyanonymous.github.io/ComfyUI_examples/wan/text_to_video_wan.json

image-20250328140802142

3. 本地运行测试

现在我们回到解压后的ComfyUI根目录,双击运行脚本:

image-20250328140956450

启动中:(启动后这个服务窗口也不要关)

image-20250328141131576

启动完毕后,会自动在浏览器打开ComfyUI的使用界面, 或者在网址栏输入 http://127.0.0.1:8188 也可以:

image-20250328141326584
image-20250328141419401

然后,将刚才下载好的 Json 格式的工作流文件直接拖入这个界面即可:

image-20250328141609344
image-20250328141649403

使用文生视频前,可以先右键保存动画模块,在模式中选择Always,这样以后生成的视频都会被自动保存下来:

image-20250328143630913

然后在编辑器中输入提示词(中英文都可以),点击运行即可启动文生视频工作流:

image-20250328142250430

例:一个小男孩在海边提足球

image-20250328143946700

默认生成的视频参数是832*480,如果需要修改可以在这里对宽度和高度进行调整:

image-20250328145040115

默认视频长度是33,如果需要修改可以在这里调整,更长的时长也需要更多的时间来生成视频:

image-20250328150414291
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

4. 公网使用Wan2.1模型生成视频

现在我们已经在本地成功部署了Wan2.1模型,并通过ComfyUI工作流来使用文字生成视频了,但如果我们部署的这台电脑配置不错,使用这款大模型毫无压力,要是我们出门时,或者是想团队多人使用,打算远程调用这台电脑上部署的大模型应该怎么办呢?

很简单,我们只需要安装Cpolar内网穿透工具就能轻松实现公网环境远程访问本地部署的服务!通过它,我们可以免去复杂得本地部署过程,只需要一个公网地址就可以随时随地访问到ComfyUI中来使用Wan2.1模型来生成视频了。也无需自己注册域名购买云服务器,下面是安装cpolar步骤:

cpolar官网地址:https://www.cpolar.com

点击进入cpolar官网,点击免费使用注册一个账号,并下载最新版本的Cpolar。

img

登录成功后,点击下载Cpolar到本地并安装(一路默认安装即可)本教程选择下载Windows版本。

image-20240319175308664

Cpolar安装成功后,在浏览器上访问http://localhost:9200,使用cpolar账号登录,登录后即可看到Cpolar web 配置界面,结下来在web 管理界面配置即可。

img

4.1 创建远程连接公网地址

登录cpolar web UI管理界面后,点击左侧仪表盘的隧道管理——创建隧道:

  • 隧道名称:可自定义,本例使用了: wan21 注意不要与已有的隧道名称重复
  • 协议:http
  • 本地地址:8188
  • 域名类型:随机域名
  • 地区:选择China Top
  • 高级:Http Auth:user:123(本例中用户名user 密码123)

点击保存

image-20250328151828884

创建成功后,打开左侧在线隧道列表,可以看到刚刚通过创建隧道生成了两个公网地址,接下来就可以在其他电脑(异地)上,使用任意一个地址在浏览器中访问即可。

image-20250328151931960

如下图所示,输入设置的用户名user及密码123(也可以不设置高级,就无需用户名密码直接登入,安全起见,建议配置密码,避免他人蹭显卡算力_

image-20250328152127049

可以看到成功实现使用公网地址异地远程访问本地部署的ComfyUI使用Wan2.1大模型!

需要注意的是首次登录,默认显示的工作流可能不是我们刚才使用的工作流配置,点击左边菜单栏中的队列,在之前保存过的视频中,右键加载工作流,即可远程使用对应的工作流来生成视频啦!

image-20250328152609754

小结

为了方便演示,我们在上边的操作过程中使用了cpolar生成的HTTP公网地址隧道,其公网地址是随机生成的。这种随机地址的优势在于建立速度快,可以立即使用,然而,它的缺点是网址是随机生成,这个地址在24小时内会发生随机变化,更适合于临时使用。

如果有长期远程访问本地部署的ComfyUI使用Wan2.1大模型或者其他本地服务的需求,但又不想每天重新配置公网地址,还想地址好看又好记,那我推荐大家选择使用固定的二级子域名方式来远程访问,带宽会更快,使用cpolar在其他用途还可以保留多个子域名,支持多个cpolar在线进程。(根据cpolar套餐而定)

5. 固定远程访问公网地址

由于以上使用cpolar所创建的隧道使用的是随机公网地址,24小时内会随机变化,不利于长期远程访问。因此我们可以为其配置二级子域名,该地址为固定地址,不会随机变化。

注意需要将cpolar套餐升级至基础套餐或以上,且每个套餐对应的带宽不一样。【cpolar.cn已备案】

登录cpolar官网,点击左侧的预留,选择保留二级子域名,地区选择china top,然后设置一个二级子域名名称,自定义即可,然后填写备注信息,点击保留。

image-20250328153007281

保留成功后复制保留的二级子域名地址:mywan21

image-20250328153056392

登录cpolar web UI管理界面,点击左侧仪表盘的隧道管理——隧道列表,找到所要配置的隧道wan21,点击右侧的编辑

image-20250328153132963

修改隧道信息,将保留成功的二级子域名配置到隧道中

  • 域名类型:选择二级子域名
  • Sub Domain:填写保留成功的二级子域名
  • 地区: China TOP

点击更新

image-20250328153226764

更新完成后,打开在线隧道列表,此时可以看到随机的公网地址已经发生变化,地址名称也变成了保留和固定的二级子域名名称。

image-20250328153300357

最后,我们使用固定的公网地址访问 ComfyUI 可以看到访问成功,一个永久不会变化的远程访问方式即设置好了,同样需要输入在高级中配置的用户名和密码登录。

image-20250328153357978
image-20250328153538574

总结

通过今天的分享,相信大家对如何随时随地通过公网地址远程使用本地Wan2.1大模型有了更多的了解,只需将这个固定的公网地址分享给团队成员,就能轻松实现高效协作,大幅提升工作效率!如果你是个人用户,无需依赖云服务器,也能在其他设备上远程登录和使用。以上就是在本地部署ComfyUI并接入Wan2.1大模型,结合cpolar内网穿透工具远程在线文字生成视频的完整教程,希望你随时随地享受AI创作的乐趣!

Wan2.1的出现证明:开源AI也能打破闭源垄断。配合cpolar的远程访问能力,更是让创意协作无边界。如果你也想低成本玩转AI视频创作,这个开源方案值得一试!

本篇文章知识点来源[cpolar官网][https://www.cpolar.com]

  1. cpolar博客:配置二级子域名: https://www.cpolar.com/blog/configure-the-secondary-subdomain-name
  2. cpolar博客:配置自定义域名: https://www.cpolar.com/blog/configure-your-own-domain-name
  3. cpolar博客:配置固定TCP端口地址: https://www.cpolar.com/blog/configure-fixed-tcp-port-address
  4. cpolar博客:配置固定FTP地址: https://www.cpolar.com/blog/configure-fixed-ftp-address

Read more

实测Gemini Pro:谷歌王牌AI,到底能帮我们解决多少实际问题?

实测Gemini Pro:谷歌王牌AI,到底能帮我们解决多少实际问题?

🔥草莓熊Lotso:个人主页 ❄️个人专栏: 《C++知识分享》《Linux 入门到实践:零基础也能懂》 ✨生活是默默的坚持,毅力是永久的享受! 🎬 博主简介: 文章目录 * 前言: * 一、核心亮点实测:不止是“多模态”,更是“真全能” * 1. 多模态处理:能“看、听、读、写”,还能“联动协作” * 2. 推理能力:复杂问题“会拆解、会纠错”,堪比专业助手 * 3. 代码能力:开发者的“全能帮手”,新手也能轻松上手 * 二、真实应用场景:这些领域,已经在用它提效了 * 1. 科研领域:帮研究员“节省时间”,专注核心工作 * 2. 内容创作:

Python+AI 实战:搭建属于你的智能问答机器人

Python+AI 实战:搭建属于你的智能问答机器人

欢迎文末添加好友交流,共同进步! “ 俺はモンキー・D・ルフィ。海贼王になる男だ!” 引言 * 在数字化转型浪潮中,智能问答机器人正成为企业客服、知识库检索乃至个人助理等场景的关键交互入口。它能让员工秒级获取技术解答、客户即时获得业务支持、学习者随时得到个性化辅导,极大提升信息获取效率与用户体验。 * 为何选择 Python 与开源 AI 模型?Python 拥有成熟的 AI 生态——Hugging Face Transformers、LangChain、FAISS 等工具大幅降低开发门槛;而本地部署的开源大模型(如 Phi-3、Mistral、Llama 系列)则保障了数据隐私、规避了 API 成本,特别适合对安全性或离线能力有要求的场景。 * 本文将手把手带你从零构建一个基于 RAG(检索增强生成)架构的本地智能问答系统:使用 Sentence-BERT 实现语义检索,FAISS 作为向量数据库,并集成轻量级开源语言模型生成答案。

构建 AI 逆向 MCP - 使用 MCP 辅助 JS 逆向

构建 AI 逆向 MCP - 使用 MCP 辅助 JS 逆向 前言 谷歌出了一个 chrome-dev-mcp,能够自动化浏览器操作。我发现这个 MCP 能抓包,于是想:能不能用于 JS 逆向分析? 但实际用下来发现,常规逆向需要的能力它都不支持: * ❌ 搜索代码 * ❌ 追踪调用栈 * ❌ 打断点调试 * ❌ Hook 函数 * ❌ 查看变量值 那能不能给它打补丁?当然可以。 Chrome DevTools Protocol(CDP)本身支持这些能力,只是谷歌的 MCP 没有封装。于是我基于 CDP 扩展了一套逆向专用工具: 扩展能力对应工具代码搜索search_in_sources、find_in_script调用栈追踪get_request_initiator断点调试set_

AI 驱动游戏:鸿蒙生态的机会在哪里?

AI 驱动游戏:鸿蒙生态的机会在哪里?

子玥酱(掘金 / 知乎 / ZEEKLOG / 简书 同名) 大家好,我是子玥酱,一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂,目前在某国企负责前端软件研发相关工作,主要聚焦于业务型系统的工程化建设与长期维护。 我持续输出和沉淀前端领域的实战经验,日常关注并分享的技术方向包括前端工程化、小程序、React / RN、Flutter、跨端方案, 在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。 技术方向:前端 / 跨端 / 小程序 / 移动端工程化 内容平台:掘金、知乎、ZEEKLOG、简书 创作特点:实战导向、源码拆解、少空谈多落地 文章状态:长期稳定更新,大量原创输出 我的内容主要围绕 前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读 展开。文章不会停留在“API 怎么用”,而是更关注为什么这么设计、在什么场景下容易踩坑、