第一部分：基石搭建 - 环境配置与模型 API 调用

这是整个项目的基础，如果这一步不稳固，后续的一切都无法进行。请务必仔细操作。

步骤 1.1：硬件与软件准备

硬件要求（重要）：
- 内存 (RAM): 建议 32GB 或以上。Wan2.2 A14B 模型在加载和生成时会占用大量内存。16GB 是最低限度，可能会非常卡顿或失败。
- 显存 (VRAM): 建议 12GB 或以上。这将决定你生成视频的速度。如果显存不足，模型会回退到 CPU 运行，速度会慢几个数量级。
- 硬盘空间: 至少 50GB 可用空间。模型文件本身就很大（约 20-30GB），生成的视频片段也需要空间。
软件准备：
- 操作系统: Windows 10/11, macOS, 或 Linux。
- Python: 访问 Python 官网下载并安装 Python 3.9 或更高版本。安装时，务必勾选 'Add Python to PATH'。
- LM Studio: 访问 LM Studio 官网下载并安装适用于你操作系统的版本。

步骤 1.2：在 LM Studio 中下载并配置模型

启动 LM Studio 并完成初始设置。
下载模型：
- 在左侧的搜索栏（🔍）中，输入 Wan2.2。
- 你会看到几个结果。我们需要下载以下两个模型（至少一个）：
  - Wan2.2-T2V-A14B-GGUF (Text-to-Video)
  - Wan2.2-I2V-A14B-GGUF (Image-to-Video)
- 点击其中一个模型，进入下载页面。你会看到不同量化版本的文件。
  - 推荐： 选择 Q4_K_M 版本。它在质量和性能之间取得了很好的平衡。
  - 如果你的显存充足（>24GB）： 可以选择 Q5_K_M 或 Q8_0 以获得更好质量。
  - 如果你的显存紧张（<12GB）： 可以尝试 Q3_K_M，但质量会下降。
- 点击 Download 按钮，等待下载完成。这可能需要一些时间。
加载模型并启动服务器：
- 在 LM Studio 主界面顶部，点击 'Chat' (💬) 标签页。
- 在模型选择下拉菜单中，选择你刚刚下载的模型，例如 Wan2.2-T2V-A14B-GGUF。
- 在界面右侧，找到 'Server' 选项卡。
- 确保 'Enable Server' 开关是打开的。
- 记录下 'Host' 和 'Port'。默认通常是 http://localhost:1234。
- 关键一步： 在 'CORS' 设置下方，找到 'Custom Server Preset' 或类似选项。Wan2.2 这类多模态模型通常不使用标准的 /v1/chat/completions 端点。你需要查看模型信息或尝试不同的端点。通常，它可能是 /v1/images/generations 或一个自定义路径。如果不确定，先保持默认，我们将在 Python 脚本中进行调试。

步骤 1.3：编写 Python 脚本测试 API 调用

这是验证环境是否成功的'Hello, World!'时刻。

创建项目文件夹： 在你的电脑上创建一个新文件夹，例如 video_agent。
运行与调试：
- 在终端中，确保你仍在 video_agent 文件夹内。
- 运行脚本：python test_api.py
- 如果成功： 你会看到一系列打印信息，最终在文件夹中出现一个名为 lion_savanna.mp4 的视频文件。恭喜你，基础环境搭建成功！
- 如果失败（最常见的情况）：
  - **404 Not Found**: 说明 API 端点 API_URL 错误。请回到 LM Studio，仔细检查模型页面的 'Developer' 标签页，找到正确的 Endpoint URL，并更新 test_api.py 中的 API_URL。
  - **500 Internal Server Error**: 可能是模型未完全加载，或请求体格式 payload 不正确。检查 LM Studio 主界面，确保模型加载完成。然后，尝试简化 payload，只保留 prompt 和 model 字段。
  - 连接被拒绝: 确认 LM Studio 的服务器已启动，并且端口号 1234 正确。 请务必在这一步花费足够的时间，直到你能够稳定地生成单个视频片段。 这是后续所有工作的基础。

创建测试脚本： 在 video_agent 文件夹中，创建一个名为 test_api.py 的文件，并粘贴以下代码：

import requests
import json
import time
# --- 配置区 ---
# LM Studio 本地服务器地址，请根据你的实际情况修改
API_URL = "http://localhost:1234/v1/images/generations"
# 这是一个常见的端点，如果不行，请查看 LM Studio 中模型页面的"Developer"标签页获取正确端点
# 请求头
HEADERS = {
    "Content-Type": "application/json",
}

def test_t2v_generation(prompt: str, output_filename: str = "test_output.mp4"):
    """
    测试调用 Wan2.2 T2V 模型生成视频
    """
    print(f"🚀 正在向 '{API_URL}' 发送请求...")
    print(f"📝 提示词：'{prompt}'")
    # --- 请求体 ---
    # !!! 重要：这个结构是基于常见 API 的猜测，可能需要根据 LM Studio 的实际 API 进行调整 !!!
    # 请在 LM Studio 的模型页面 -> "Developer"标签页查看示例请求体
    payload = {
        "model": "Wan2.2-T2V-A14B-GGUF", # 模型标识符，通常是你加载的模型名
        "prompt": prompt, # 以下参数是可选的，你可以根据需要添加或修改
        # "n": 1, # 生成视频的数量
        # "size": "832x480", # 视频分辨率
        # "steps": 30, # 推理步数，越多越慢但质量可能越好
        # "cfg_scale": 7.5, # 引导系数
    }
    try:
        # 发送 POST 请求
        response = requests.post(API_URL, headers=HEADERS, json=payload, timeout=300) # 设置 5 分钟超时
        # 检查响应状态码
        if response.status_code == 200:
            print("✅ 请求成功！正在处理响应...")
            result = response.json()
            # --- 响应处理 ---
            # !!! 这是最需要根据实际情况修改的部分 !!!
            # API 可能返回视频的 base64 编码，或者一个下载链接，或者直接是二进制流
            # 这里我们假设它返回一个包含 URL 的 JSON 对象
            if 'data' in result and len(result['data']) > 0 and 'url' in result['data'][0]:
                video_url = result['data'][0]['url']
                print(f"🔗 视频生成 URL: {video_url}")
                # 下载视频文件
                print("⬇️ 正在下载视频...")
                video_response = requests.get(video_url, stream=True)
                if video_response.status_code == 200:
                    with open(output_filename, 'wb') as f:
                        for chunk in video_response.iter_content(chunk_size=8192):
                            f.write(chunk)
                    print(f"🎉 视频已成功保存为：{output_filename}")
                else:
                    print(f"❌ 下载视频失败：{video_response.status_code}")
            else:
                print("❌ 响应格式不符合预期，请检查 API 返回的 JSON 结构:")
                print(json.dumps(result, indent=2))
        else:
            print(f"❌ API 请求失败，状态码：{response.status_code}")
            print("错误信息:", response.text)
    except requests.exceptions.RequestException as e:
        print(f"❌ 网络请求出错：{e}")
    except json.JSONDecodeError:
        print("❌ 解析响应 JSON 失败，服务器可能返回了非 JSON 格式的错误信息。")
        print("原始响应:", response.text)

if __name__ == '__main__':
    # 确保 LM Studio 已加载模型并启动了服务器
    input("请确保 LM Studio 已准备就绪，然后按 Enter 键开始测试...")
    test_prompt = "A majestic lion walking slowly across the African savanna at sunset."
    test_t2v_generation(test_prompt, "lion_savanna.mp4")

安装 Python 库： 打开你的终端（Windows 上是 CMD 或 PowerShell，macOS/Linux 上是 Terminal），进入项目文件夹，然后运行：

pip install requests

当你成功运行 test_api.py 并得到视频文件后，就可以继续前往第二部分了。

第二部分：核心引擎 - 视频序列的生成与拼接

在这一部分，我们将把第一部分的单次调用代码，重构为一个结构化、可复用的系统。我们将实现从一系列文本/图片输入，到生成一系列视频片段，再到将它们拼接成一个完整视频的完整流程。

步骤 2.1：设计并创建项目结构

一个好的项目结构能让代码更清晰、更易于维护。请在你的 video_agent 文件夹中，创建以下目录和文件：

video_agent/
├── src/ # 存放我们的源代码
│   ├── __init__.py # 使 src 成为一个 Python 包
│   ├── model_interface.py # 封装与 LM Studio 的 API 交互
│   ├── generator.py # 负责批量生成视频片段
│   └── editor.py # 负责视频的拼接与编辑
├── temp/ # 存放临时生成的视频片段
├── output/ # 存放最终的成品视频
├── config.py # 存放配置信息（如 API 地址）
└── main.py # 主程序入口，用于测试和整合

创建方法：

Windows: 在文件资源管理器中手动创建文件夹，并创建空白的 .py 文件。

macOS/Linux: 在终端中运行以下命令：

cd video_agent
mkdir -p src temp output
touch src/__init__.py src/model_interface.py src/generator.py src/editor.py config.py main.py

步骤 2.2：封装模型接口 (`src/model_interface.py`)

我们将把第一部分 test_api.py 的核心逻辑抽象成一个类，方便后续调用。

编写 src/model_interface.py：

# src/model_interface.py
import requests
import json
import os
from typing import Optional
# 导入配置
import sys
sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
from config import T2V_ENDPOINT, I2V_ENDPOINT, T2V_MODEL_NAME, I2V_MODEL_NAME

class ModelInterface:
    """封装与 LM Studio 中 Wan2.2 模型的 API 交互"""
    def __init__(self):
        self.headers = {"Content-Type": "application/json"}
        # 注意：Wan2.2 的 API 可能需要特定的请求体格式，这里的结构是基于常见 API 的推断
        # 如果后续调用失败，请首先检查这里的 payload 结构是否与 LM Studio 开发者文档一致
        self.default_payload = {
            "steps": 30, # 推理步数，可根据性能调整
            "cfg_scale": 7.5, # 引导系数
        }

    def _make_request(self, endpoint: str, payload: dict) -> Optional[dict]:
        """发送 POST 请求并处理通用响应"""
        try:
            response = requests.post(endpoint, headers=self.headers, json=payload, timeout=300)
            response.raise_for_status() # 如果状态码不是 2xx，则抛出 HTTPError
            return response.json()
        except requests.exceptions.RequestException as e:
            print(f"❌ API 请求失败：{e}")
            return None

编写 config.py： 将配置项分离出来，便于管理。

# config.py
# LM Studio API 配置
LM_STUDIO_HOST = "http://localhost"
LM_STUDIO_PORT = "1234"
# 根据你在 LM Studio 中确认的端点进行修改
# T2V (Text-to-Video) 端点
T2V_ENDPOINT = f"{LM_STUDIO_HOST}:{LM_STUDIO_PORT}/v1/images/generations"
# I2V (Image-to-Video) 端点 (可能和 T2V 相同，也可能不同，需确认)
I2V_ENDPOINT = f"{LM_STUDIO_HOST}:{LM_STUDIO_PORT}/v1/images/generations"
# 模型名称
T2V_MODEL_NAME = "Wan2.2-T2V-A14B-GGUF"
I2V_MODEL_NAME = "Wan2.2-I2V-A14B-GGUF"

安装 MoviePy： 我们马上需要它来处理视频。

pip install moviepy

PythonAI算法

基于 Python 与 Wan2.2 模型的本地 AI 长视频生成智能体构建教程

利用 Python 调用本地 Wan2.2 模型，实现长视频的智能生成与拼接。涵盖环境配置、API 封装、批量生成及 GUI 界面构建等步骤。

灰度发布发布于 2026/3/16更新于 2026/5/46 浏览

第一部分：基石搭建 - 环境配置与模型 API 调用

这是整个项目的基础，如果这一步不稳固，后续的一切都无法进行。请务必仔细操作。

步骤 1.1：硬件与软件准备

硬件要求（重要）：
- 内存 (RAM): 建议 32GB 或以上。Wan2.2 A14B 模型在加载和生成时会占用大量内存。16GB 是最低限度，可能会非常卡顿或失败。
- 显存 (VRAM): 建议 12GB 或以上。这将决定你生成视频的速度。如果显存不足，模型会回退到 CPU 运行，速度会慢几个数量级。
- 硬盘空间: 至少 50GB 可用空间。模型文件本身就很大（约 20-30GB），生成的视频片段也需要空间。
软件准备：
- 操作系统: Windows 10/11, macOS, 或 Linux。
- Python: 访问 Python 官网下载并安装 Python 3.9 或更高版本。安装时，务必勾选 'Add Python to PATH'。
- LM Studio: 访问 LM Studio 官网下载并安装适用于你操作系统的版本。

步骤 1.2：在 LM Studio 中下载并配置模型

启动 LM Studio 并完成初始设置。
下载模型：
- 在左侧的搜索栏（🔍）中，输入 Wan2.2。
- 你会看到几个结果。我们需要下载以下两个模型（至少一个）：
  - Wan2.2-T2V-A14B-GGUF (Text-to-Video)
  - Wan2.2-I2V-A14B-GGUF (Image-to-Video)
- 点击其中一个模型，进入下载页面。你会看到不同量化版本的文件。
  - 推荐： 选择 Q4_K_M 版本。它在质量和性能之间取得了很好的平衡。
  - 如果你的显存充足（>24GB）： 可以选择 Q5_K_M 或 Q8_0 以获得更好质量。
  - 如果你的显存紧张（<12GB）： 可以尝试 Q3_K_M，但质量会下降。
- 点击 Download 按钮，等待下载完成。这可能需要一些时间。
加载模型并启动服务器：
- 在 LM Studio 主界面顶部，点击 'Chat' (💬) 标签页。
- 在模型选择下拉菜单中，选择你刚刚下载的模型，例如 Wan2.2-T2V-A14B-GGUF。
- 在界面右侧，找到 'Server' 选项卡。
- 确保 'Enable Server' 开关是打开的。
- 记录下 'Host' 和 'Port'。默认通常是 http://localhost:1234。
- 关键一步： 在 'CORS' 设置下方，找到 'Custom Server Preset' 或类似选项。Wan2.2 这类多模态模型通常不使用标准的 /v1/chat/completions 端点。你需要查看模型信息或尝试不同的端点。通常，它可能是 /v1/images/generations 或一个自定义路径。如果不确定，先保持默认，我们将在 Python 脚本中进行调试。

步骤 1.3：编写 Python 脚本测试 API 调用

这是验证环境是否成功的'Hello, World!'时刻。

创建项目文件夹： 在你的电脑上创建一个新文件夹，例如 video_agent。
运行与调试：
- 在终端中，确保你仍在 video_agent 文件夹内。
- 运行脚本：python test_api.py
- 如果成功： 你会看到一系列打印信息，最终在文件夹中出现一个名为 lion_savanna.mp4 的视频文件。恭喜你，基础环境搭建成功！
- 如果失败（最常见的情况）：
  - **404 Not Found**: 说明 API 端点 API_URL 错误。请回到 LM Studio，仔细检查模型页面的 'Developer' 标签页，找到正确的 Endpoint URL，并更新 test_api.py 中的 API_URL。
  - **500 Internal Server Error**: 可能是模型未完全加载，或请求体格式 payload 不正确。检查 LM Studio 主界面，确保模型加载完成。然后，尝试简化 payload，只保留 prompt 和 model 字段。
  - 连接被拒绝: 确认 LM Studio 的服务器已启动，并且端口号 1234 正确。 请务必在这一步花费足够的时间，直到你能够稳定地生成单个视频片段。 这是后续所有工作的基础。

创建测试脚本： 在 video_agent 文件夹中，创建一个名为 test_api.py 的文件，并粘贴以下代码：

import requests
import json
import time
# --- 配置区 ---
# LM Studio 本地服务器地址，请根据你的实际情况修改
API_URL = "http://localhost:1234/v1/images/generations"
# 这是一个常见的端点，如果不行，请查看 LM Studio 中模型页面的"Developer"标签页获取正确端点
# 请求头
HEADERS = {
    "Content-Type": "application/json",
}

def test_t2v_generation(prompt: str, output_filename: str = "test_output.mp4"):
    """
    测试调用 Wan2.2 T2V 模型生成视频
    """
    print(f"🚀 正在向 '{API_URL}' 发送请求...")
    print(f"📝 提示词：'{prompt}'")
    # --- 请求体 ---
    # !!! 重要：这个结构是基于常见 API 的猜测，可能需要根据 LM Studio 的实际 API 进行调整 !!!
    # 请在 LM Studio 的模型页面 -> "Developer"标签页查看示例请求体
    payload = {
        "model": "Wan2.2-T2V-A14B-GGUF", # 模型标识符，通常是你加载的模型名
        "prompt": prompt, # 以下参数是可选的，你可以根据需要添加或修改
        # "n": 1, # 生成视频的数量
        # "size": "832x480", # 视频分辨率
        # "steps": 30, # 推理步数，越多越慢但质量可能越好
        # "cfg_scale": 7.5, # 引导系数
    }
    try:
        # 发送 POST 请求
        response = requests.post(API_URL, headers=HEADERS, json=payload, timeout=300) # 设置 5 分钟超时
        # 检查响应状态码
        if response.status_code == 200:
            print("✅ 请求成功！正在处理响应...")
            result = response.json()
            # --- 响应处理 ---
            # !!! 这是最需要根据实际情况修改的部分 !!!
            # API 可能返回视频的 base64 编码，或者一个下载链接，或者直接是二进制流
            # 这里我们假设它返回一个包含 URL 的 JSON 对象
            if 'data' in result and len(result['data']) > 0 and 'url' in result['data'][0]:
                video_url = result['data'][0]['url']
                print(f"🔗 视频生成 URL: {video_url}")
                # 下载视频文件
                print("⬇️ 正在下载视频...")
                video_response = requests.get(video_url, stream=True)
                if video_response.status_code == 200:
                    with open(output_filename, 'wb') as f:
                        for chunk in video_response.iter_content(chunk_size=8192):
                            f.write(chunk)
                    print(f"🎉 视频已成功保存为：{output_filename}")
                else:
                    print(f"❌ 下载视频失败：{video_response.status_code}")
            else:
                print("❌ 响应格式不符合预期，请检查 API 返回的 JSON 结构:")
                print(json.dumps(result, indent=2))
        else:
            print(f"❌ API 请求失败，状态码：{response.status_code}")
            print("错误信息:", response.text)
    except requests.exceptions.RequestException as e:
        print(f"❌ 网络请求出错：{e}")
    except json.JSONDecodeError:
        print("❌ 解析响应 JSON 失败，服务器可能返回了非 JSON 格式的错误信息。")
        print("原始响应:", response.text)

if __name__ == '__main__':
    # 确保 LM Studio 已加载模型并启动了服务器
    input("请确保 LM Studio 已准备就绪，然后按 Enter 键开始测试...")
    test_prompt = "A majestic lion walking slowly across the African savanna at sunset."
    test_t2v_generation(test_prompt, "lion_savanna.mp4")

安装 Python 库： 打开你的终端（Windows 上是 CMD 或 PowerShell，macOS/Linux 上是 Terminal），进入项目文件夹，然后运行：

pip install requests

当你成功运行 test_api.py 并得到视频文件后，就可以继续前往第二部分了。

第二部分：核心引擎 - 视频序列的生成与拼接

步骤 2.1：设计并创建项目结构

一个好的项目结构能让代码更清晰、更易于维护。请在你的 video_agent 文件夹中，创建以下目录和文件：

video_agent/
├── src/ # 存放我们的源代码
│   ├── __init__.py # 使 src 成为一个 Python 包
│   ├── model_interface.py # 封装与 LM Studio 的 API 交互
│   ├── generator.py # 负责批量生成视频片段
│   └── editor.py # 负责视频的拼接与编辑
├── temp/ # 存放临时生成的视频片段
├── output/ # 存放最终的成品视频
├── config.py # 存放配置信息（如 API 地址）
└── main.py # 主程序入口，用于测试和整合

创建方法：

Windows: 在文件资源管理器中手动创建文件夹，并创建空白的 .py 文件。

macOS/Linux: 在终端中运行以下命令：

cd video_agent
mkdir -p src temp output
touch src/__init__.py src/model_interface.py src/generator.py src/editor.py config.py main.py

步骤 2.2：封装模型接口 (`src/model_interface.py`)

我们将把第一部分 test_api.py 的核心逻辑抽象成一个类，方便后续调用。

编写 src/model_interface.py：

# src/model_interface.py
import requests
import json
import os
from typing import Optional
# 导入配置
import sys
sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
from config import T2V_ENDPOINT, I2V_ENDPOINT, T2V_MODEL_NAME, I2V_MODEL_NAME

class ModelInterface:
    """封装与 LM Studio 中 Wan2.2 模型的 API 交互"""
    def __init__(self):
        self.headers = {"Content-Type": "application/json"}
        # 注意：Wan2.2 的 API 可能需要特定的请求体格式，这里的结构是基于常见 API 的推断
        # 如果后续调用失败，请首先检查这里的 payload 结构是否与 LM Studio 开发者文档一致
        self.default_payload = {
            "steps": 30, # 推理步数，可根据性能调整
            "cfg_scale": 7.5, # 引导系数
        }

    def _make_request(self, endpoint: str, payload: dict) -> Optional[dict]:
        """发送 POST 请求并处理通用响应"""
        try:
            response = requests.post(endpoint, headers=self.headers, json=payload, timeout=300)
            response.raise_for_status() # 如果状态码不是 2xx，则抛出 HTTPError
            return response.json()
        except requests.exceptions.RequestException as e:
            print(f"❌ API 请求失败：{e}")
            return None

编写 config.py： 将配置项分离出来，便于管理。

# config.py
# LM Studio API 配置
LM_STUDIO_HOST = "http://localhost"
LM_STUDIO_PORT = "1234"
# 根据你在 LM Studio 中确认的端点进行修改
# T2V (Text-to-Video) 端点
T2V_ENDPOINT = f"{LM_STUDIO_HOST}:{LM_STUDIO_PORT}/v1/images/generations"
# I2V (Image-to-Video) 端点 (可能和 T2V 相同，也可能不同，需确认)
I2V_ENDPOINT = f"{LM_STUDIO_HOST}:{LM_STUDIO_PORT}/v1/images/generations"
# 模型名称
T2V_MODEL_NAME = "Wan2.2-T2V-A14B-GGUF"
I2V_MODEL_NAME = "Wan2.2-I2V-A14B-GGUF"

安装 MoviePy： 我们马上需要它来处理视频。

pip install moviepy

基于 Python 与 Wan2.2 模型的本地 AI 长视频生成智能体构建教程

第一部分：基石搭建 - 环境配置与模型 API 调用

步骤 1.1：硬件与软件准备

步骤 1.2：在 LM Studio 中下载并配置模型

步骤 1.3：编写 Python 脚本测试 API 调用

第二部分：核心引擎 - 视频序列的生成与拼接

步骤 2.1：设计并创建项目结构

步骤 2.2：封装模型接口 (`src/model_interface.py`)

基于 Python 与 Wan2.2 模型的本地 AI 长视频生成智能体构建教程

第一部分：基石搭建 - 环境配置与模型 API 调用

步骤 1.1：硬件与软件准备

步骤 1.2：在 LM Studio 中下载并配置模型

步骤 1.3：编写 Python 脚本测试 API 调用

第二部分：核心引擎 - 视频序列的生成与拼接

步骤 2.1：设计并创建项目结构

步骤 2.2：封装模型接口 (`src/model_interface.py`)

更多推荐文章

相关免费在线工具

更多推荐文章

相关免费在线工具

基于 Python 与 Wan2.2 模型的本地 AI 长视频生成智能体构建教程

第一部分：基石搭建 - 环境配置与模型 API 调用

步骤 1.1：硬件与软件准备

步骤 1.2：在 LM Studio 中下载并配置模型

步骤 1.3：编写 Python 脚本测试 API 调用

第二部分：核心引擎 - 视频序列的生成与拼接

步骤 2.1：设计并创建项目结构

步骤 2.2：封装模型接口 (src/model_interface.py)

基于 Python 与 Wan2.2 模型的本地 AI 长视频生成智能体构建教程

第一部分：基石搭建 - 环境配置与模型 API 调用

步骤 1.1：硬件与软件准备

步骤 1.2：在 LM Studio 中下载并配置模型

步骤 1.3：编写 Python 脚本测试 API 调用

第二部分：核心引擎 - 视频序列的生成与拼接

步骤 2.1：设计并创建项目结构

步骤 2.2：封装模型接口 (src/model_interface.py)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

步骤 2.2：封装模型接口 (`src/model_interface.py`)

步骤 2.2：封装模型接口 (`src/model_interface.py`)