深度解析：Qwen3.5-9B如何用1/13的参数量在5大基准中超越GPT-oss-120B？混合架构、基准测试、开源许可全分析

Ne0inhk

16 Mar 2026 — 17 min read

一、前言：AI圈的"小模型奇迹"

1.1 2025-2026年最热门的AI话题

如果你问AI领域从业者，2025-2026年最热门的话题是什么？

答案很明确："小模型超越大模型"的技术突破。

而其中最震撼的，莫过于阿里通义千问（Qwen）团队在2026年初发布的Qwen3.5-9B模型。

1.2 核心数据对比

模型	参数量	推理任务得分	视觉推理得分
Qwen3.5-9B	9B（90亿）	81.7	70.1
gpt-oss-120B	约120B（12000亿）	80.1	59.7

核心事实：

Qwen3.5-9B的参数量只有gpt-oss-120B的1/13.5
但在推理任务上得分超越gpt-oss-120B（81.7 vs 80.1）
在视觉推理任务上也超越（70.1 vs 59.7）

1.3 为什么这令人震惊？

传统AI领域的"参数迷信"认为：

❌ “参数量越大，性能越强”
❌ “小模型永远无法超越大模型”

Qwen3.5-9B的突破，打破了这一迷信。

二、Qwen3.5系列：小而强大的四大金刚

2.1 Qwen3.5-0.8B & 2B：手机也能跑的"快准狠"

2.1.1 模型定位

这两个模型主打极致效率，专为原型开发和边缘设备设计。

2.1.2 核心特性

// 模型配置示例const qwen35_08B ={ parameters:"0.8B",// 8亿参数 contextWindow:131072,// 128K tokens architecture:"Hybrid Efficiency", optimization:"Battery-first"};const qwen35_2B ={ parameters:"2B",// 20亿参数 contextWindow:131072, architecture:"Hybrid Efficiency", optimization:"Battery-first"};

2.1.3 应用场景

典型硬件：

✅ 标准笔记本电脑
✅ 智能手机（Android/iOS）
✅ 嵌入式设备（IoT）

典型应用：

手机端视频摘要（最长60秒，8 FPS）
移动端UI导航（像素级理解）
嵌入式设备对话助手

2.2 Qwen3.5-4B：轻量级Agent的强大多模态基础

2.2.1 模型定位

Qwen3.5-4B是一个强大的多模态基础模型，专为轻量级Agent设计。

2.2.2 核心特性

const qwen35_4B ={ parameters:"4B",// 40亿参数 contextWindow:262144,// 262K tokens ≈ 20万字 architecture:"Native Multimodal", capabilities:["vision","text","reasoning","tool-use"]};

多模态能力：

✅ 原生支持视觉、文本、推理、工具调用
✅ 无需"外挂"视觉编码器
✅ 统一的token空间

2.2.3 应用场景

典型应用：

多轮对话（262K上下文）
复杂文档解析
代码辅助工具
图像理解（UI元素识别、物体计数）

2.3 Qwen3.5-9B：打破"参数迷信"的推理王者

这是本系列的重磅选手，核心亮点：

2.3.1 模型对比

维度	Qwen3.5-9B	gpt-oss-120B	优势
参数量	9B	~120B	1/13.5
推理能力	81.7分	80.1分	+1.6分
视觉理解	70.1分	59.7分	+10.4分
数学能力	83.2分	-	-
文档理解	87.7分	78.2分	+9.5分

2.3.2 硬件需求

# 推理配置import torch # 模型加载 model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen3.5-9B-Instruct", torch_dtype=torch.float16,# 半精度 device_map="auto")# 推理配置 generation_config ={"max_new_tokens":2048,"temperature":0.7,"top_p":0.9,"do_sample":True}

典型硬件：

✅ 单GPU（如RTX 4090）：流畅运行
✅ MacBook Pro（M2/M3）：本地推理
✅ 云GPU（如A100/A10G）：高性能推理

三、技术架构：混合效率+原生多模态

Qwen3.5系列的技术创新，是其实现"小而美"的秘诀。

3.1 混合效率架构

3.1.1 传统Transformer的问题

传统Transformer架构面临"内存墙"问题：

# 标准Transformer的attention计算复杂度defstandard_attention(Q, K, V):# O(N^2) 复杂度，N是序列长度 scores = Q @ K.T / sqrt(d_k) attention = softmax(scores) @ V return attention

问题：

❌ 参数量越大，推理越慢
❌ 长序列计算量指数级增长
❌ 内存占用高

3.1.2 混合效率架构

阿里采用了混合效率架构（Hybrid Efficiency Architecture）：

# 混合效率架构classHybridEfficientAttention:def__init__(self): self.gated_delta = GatedDeltaNetwork() self.sparse_moe = SparseMixtureOfExperts()defforward(self, x):# Gated Delta：只更新必要的部分 delta = self.gated_delta(x)# 稀疏MoE：只激活部分专家网络 expert_output = self.sparse_moe(x)# 融合return x + delta + expert_output

核心组件：

Gated Delta Networks（门控Delta网络）
- 一种线性注意力形式
- 只更新模型中的"必要"部分
- 减少激活参数数量
Sparse Mixture-of-Experts（稀疏MoE）
- 每次推理只激活部分专家网络
- 显著降低计算量
- 提高推理速度

效果：

✅ 更高吞吐量
✅ 显著降低延迟
✅ 解决"内存墙"问题

3.2 原生多模态

3.2.1 传统多模态架构的问题

以往的模型往往采用"后接视觉编码器"的方式：

# 传统多模态架构classTraditionalMultimodal:def__init__(self): self.text_encoder = TextEncoder() self.vision_encoder = VisionEncoder()# 外挂 self.fusion_layer = FusionLayer()defforward(self, text, image): text_features = self.text_encoder(text) vision_features = self.vision_encoder(image)return self.fusion_layer(text_features, vision_features)

问题：

❌ 视觉编码器增加了额外计算开销
❌ 融合层难以训练
❌ 统一性差（token空间不统一）

3.2.2 原生多模态架构

Qwen3.5在训练时就采用了早期多模态token融合：

# 原生多模态架构classNativeMultimodal:def__init__(self): self.multimodal_tokenizer = MultimodalTokenizer() self.unified_transformer = UnifiedTransformer()defforward(self, inputs):# 早期融合：在token层面融合多模态输入 multimodal_tokens = self.multimodal_tokenizer( text=inputs.text, image=inputs.image )# 统一的Transformer处理return self.unified_transformer(multimodal_tokens)

核心优势：

✅ 原生支持，无需外挂编码器
✅ 统一的token空间
✅ 更好的跨模态理解

能力层级：

✅ UI元素识别（按钮、输入框、菜单）
✅ 物体计数（场景中的物体数量）
✅ 视频分析（最长60秒，8 FPS）
✅ 多步推理（理解复杂的视频场景）

四、基准测试：9B vs 120B，谁赢了？

4.1 基准测试方法论

Qwen团队使用了多个权威基准测试：

4.1.1 推理能力测试

GPQA Diamond（研究生级推理）

测试内容：多选题、开放式问题、数学推理
评分标准：准确性、逻辑连贯性
Qwen3.5-9B得分：81.7
gpt-oss-120B得分：80.1
对标模型：Qwen3.5-4B (74.0)

结论：

Qwen3.5-9B在研究生级推理上超越gpt-oss-120B
超越幅度：1.6分

MMU-Pro（视觉推理）

测试内容：图像理解、视觉推理
Qwen3.5-9B得分：70.1
对标模型：Gemini 2.5 Flash-Lite (59.7), Qwen3-VL-30B-A3B (63.0)

结论：

Qwen3.5-9B在视觉推理上表现精英
领先Gemini 2.5 Flash-Lite约10分

4.1.2 数学能力测试

HMMT Feb 2025（哈佛-MIT数学竞赛）

测试内容：高等数学、代数、几何
Qwen3.5-9B得分：83.2
对标模型：Qwen3.5-4B (74.0)

结论：

Qwen3.5-9B在数学推理上表现优异
4B版本得分为74.0，差距明显

4.1.3 文档理解测试

OmniDocBench v1.5（文档识别）

测试内容：表格、图表、文档布局识别
Qwen3.5-9B得分：87.7
对标模型：gpt-oss-120B (78.2)

结论：

Qwen3.5-9B在文档理解上全面领先
超越gpt-oss-120B约9.5分

4.2 多模态能力测试

4.2.1 视频理解

Video-MME（带字幕的视频理解）

测试内容：视频情节理解、人物关系、时间顺序
Qwen3.5-9B得分：84.5
Qwen3.5-4B得分：83.5
对标模型：Gemini 2.5 Flash-Lite (74.6)

结论：

Qwen3.5系列在视频理解上显著领先
9B版本表现略优于4B版本

4.2.2 多语言知识

MMMLU（多语言知识）

测试内容：多语言常识、文化知识
Qwen3.5-9B得分：81.2
对标模型：gpt-oss-120B (78.2)

结论：

Qwen3.5-9B在多语言知识上保持顶级表现
领先gpt-oss-120B约3分

4.3 基准测试总结

基准测试	Qwen3.5-9B	gpt-oss-120B	超越幅度
GPQA Diamond（推理）	81.7	80.1	+1.6
MMU-Pro（视觉推理）	70.1	-	-
Video-MME（视频理解）	84.5	-	-
HMMT（数学）	83.2	-	-
OmniDocBench（文档理解）	87.7	78.2	+9.5
MMMLU（多语言知识）	81.2	78.2	+3.0

核心发现：

✅ 在与gpt-oss-120B直接对比的测试中，Qwen3.5-9B全面超越
✅ 视觉理解和视频理解是Qwen3.5系列的核心优势
✅ 文档理解能力显著领先（87.7 vs 78.2）

五、部署与应用场景：笔记本电脑就能跑

5.1 硬件需求

5.1.1 各模型的硬件需求

模型	CPU要求	GPU要求	内存要求	典型硬件
Qwen3.5-0.8B	现代CPU	无GPU	8GB	笔记本、手机
Qwen3.5-2B	现代CPU	无GPU	8GB	笔记本、手机
Qwen3.5-4B	现代CPU	单GPU（4GB VRAM）	16GB	RTX 3060、M1/M2
Qwen3.5-9B	现代CPU	单GPU（8GB VRAM）	24GB	RTX 4090、M3

5.1.2 实测部署案例

案例1：笔记本电脑部署

# 环境准备 pip install torch transformers accelerate # 模型加载 from transformers import AutoModelForCausalLM, AutoTokenizer import torch model_id ="Qwen/Qwen3.5-9B-Instruct" model = AutoModelForCausalLM.from_pretrained( model_id, torch_dtype=torch.float16, device_map="auto") tokenizer = AutoTokenizer.from_pretrained(model_id)# 推理 inputs = tokenizer("你好，请介绍一下Qwen3.5-9B模型", return_tensors="pt") outputs = model.generate( **inputs, max_new_tokens=512, temperature=0.7, do_sample=True ) print(tokenizer.decode(outputs[0], skip_special_tokens=True))

案例2：云端GPU部署

# Docker部署docker run --gpus all -p8080:80 \-v ~/.cache/huggingface:/root/.cache/huggingface \ qwen-webui \ --model-path /models/Qwen3.5-9B-Instruct \--port8080

5.2 应用场景详解

场景1：边缘设备AI助手

适用模型：Qwen3.5-0.8B & 2B

典型应用：

手机端视频摘要（最长60秒，8 FPS）
移动端UI导航（像素级理解）
嵌入式设备对话助手

优势：

✅ 极低延迟（<100ms）
✅ 电池友好
✅ 可离线运行

场景2：轻量级Agent

适用模型：Qwen3.5-4B

典型应用：

多轮对话（262K上下文）
复杂文档解析
代码辅助工具
图像理解（UI元素识别、物体计数）

优势：

✅ 大上下文窗口
✅ 原生多模态
✅ 单GPU流畅运行

场景3：多功能Agent

适用模型：Qwen3.5-9B

典型应用：

企业级Agent（本地部署，免云成本）
代码重构（400K行代码一次性喂入1M上下文）
数学推理（STEM任务）
实时视频分析

优势：

✅ 强大推理能力
✅ 全面的多模态理解
✅ 高性价比（vs GPT-4/Claude-4）

六、开源许可：Apache 2.0的商业友好

6.1 许可证详解

Qwen3.5系列采用Apache 2.0许可证，这是最宽松的开源许可证之一。

6.1.1 许可证核心条款

Apache License Version 2.0, January 2004 http://www.apache.org/licenses/ TERMS AND CONDITIONS FOR USE, REPRODUCTION, AND DISTRIBUTION 1. 定义 2. 许可授予 3. 条件 4. 再许可 5. 商标使用 6. 免责声明 7. 责任限制 8. 分发 9. 适用法律

6.1.2 商业使用优势

✅ 允许商业使用（免版税）

可以将模型嵌入到商业产品
无需支付版税或授权费
避免了"厂商锁定"（Vendor Lock-in）

✅ 允许修改

可以按需定制模型
可以进行指令微调（SFT）
可以应用强化学习（RLHF）

✅ 允许分发

可以将模型打包到本地优先AI应用
可以在企业内部部署
可以作为API服务提供

✅ 避免"厂商锁定"

不绑定特定API
不绑定特定云平台
不绑定特定硬件

6.2 生态影响

6.2.1 开发者反响

GitHub星标：

Qwen3.5系列在Hugging Face上的星标数：50,000+
模型下载量：1,000,000+

社区评价：

“Qwen3.5-9B和GPT OSS 120b一样好，但只有1/13大小！”
—— Karan Dhir, Kargul Studio

“0.8B和2B可以手机跑！4B作为强大多模态基础是移动端开发者的游戏改变者！”
—— Hugging Face开发者Xenova

“9B模型可以在我M1 MacBook Air上免费本地运行！”
—— 开发者Karan

6.2.2 企业级应用

Software Engineering：

本地代码智能，无需云API
Repository-wide Refactoring（40万行代码一次性喂入1M上下文）

Operations & IT：

自动化多步骤系统设置和文件管理
本地部署，数据不出内网

Product & UX：

本地多模态推理直接集成到应用
像素级UI理解，自动化表单填写

Data & Analytics：

从复杂视觉报告中提取结构化数据
高保真OCR和结构化数据提取

6.3 Base模型 vs Instruct模型

Qwen3.5系列同时发布了Base和Instruct两个版本：

版本	用途	适用场景
Base模型	基础预训练模型	继续预训练、指令微调、RLHF
Instruct模型	指令优化模型	直接使用、Agent应用、对话

Base模型的价值：

✅ 提供"空白板"（Blank Slate）
未被RLHF或SFT数据偏向
适合企业定制和特定任务微调

七、结论：小模型超越大模型是必然趋势

7.1 核心观点

Qwen3.5-9B的突破，标志着AI发展的一个重要转折点：

“小模型超越大模型不是偶然，而是必然趋势。”

这背后的技术逻辑是：

混合效率架构解决了"内存墙"问题
原生多模态避免了"后接编码器"的开销
智能训练策略让模型学到了"精简但强大"的表示

7.2 行业意义

7.2.1 "Agentic Realignment"时代

AI领域正进入**“Agentic Realignment”（Agent重新对齐）时代**：

我们已经超越了简单聊天机器人
目标是自主Agent——能够"思考"、“看见”、“行动”
使用万亿参数模型进行Agent循环成本极高
本地Qwen3.5-9B可以以极低成本完成同样的任务

7.2.2 本地优先AI的普及

通过强化学习（RL）跨越百万Agent环境，阿里为这些小模型赋予了"人类对齐的判断"：

0.8B模型可以在智能手机上运行
4B模型可以驱动编码终端
9B模型可以处理复杂的多步骤任务

这实际上是"Agent能力的民主化"。

7.2.3 边缘部署与成本优化

从Chatbot到Agent的转型：

软件工程：本地代码智能，无需云API
Repository-wide Refactoring：40万行代码一次性喂入1M上下文
Operations & IT：自动化多步骤系统设置和文件管理
Product & UX：本地多模态推理直接集成到应用

7.3 技术对比总结

维度	Qwen3.5-9B	gpt-oss-120B	优势方
参数量	9B	~120B	Qwen（1/13）
推理能力	81.7	80.1	Qwen（+1.6）
视觉理解	70.1	-	Qwen（全面领先）
文档理解	87.7	78.2	Qwen（+9.5）
数学能力	83.2	-	Qwen（表现优异）
硬件需求	单GPU	多GPU	Qwen（低门槛）
部署成本	低	高	Qwen（高性价比）
开源许可	Apache 2.0	未知	Qwen（商业友好）

八、踩坑记录

⚠️ 坑1：混淆"OpenAI的开源"与"GPT-oss-120B"

问题：部分媒体将"OpenAI的开源gpt-oss-120B"误写为"gpt-oss-120b"

教训：

在引用基准数据时，务必核对原始来源
避免误导读者

正确写法：

✅ “gpt-oss-120b”（官方命名）
✅ “OpenAI的开源模型gpt-oss-120b”

⚠️ 坑2：忽视模型适用场景

问题：部分评测将所有任务混在一起，误导用户

教训：

0.8B & 2B适合边缘设备，不适合通用推理
4B适合轻量级Agent，不适合复杂数学推理
9B适合多功能Agent，但不适合手机部署

建议：

根据实际应用场景选择合适的模型
避免盲目追求"最大"

⚠️ 坑3：忽视Base模型的价值

问题：部分开发者只关注Instruct模型，忽视Base模型

教训：

Base模型提供"空白板"，适合定制化
Instruct模型已经过优化，可能不适合特定任务

建议：

企业用户优先考虑Base模型
特定任务可以基于Base模型微调

✅ 案例：开发者实测

实测数据：

“Qwen3.5-9B在我的RTX 4090上，推理速度达到80 tokens/秒，延迟低于100ms，完全可以满足实时对话需求。”
—— Karan Dhir, Kargul Studio

“0.8B和2B可以在我的Android手机上流畅运行，这改变了移动端AI的游戏规则！”
—— Hugging Face开发者Xenova

九、实战代码示例

9.1 本地部署

# requirements.txt torch>=2.0.0 transformers>=4.30.0 accelerate>=0.20.0

# deploy.pyimport torch from transformers import( AutoModelForCausalLM, AutoTokenizer, GenerationConfig )from accelerate import infer_auto_device # 模型ID MODEL_ID ="Qwen/Qwen3.5-9B-Instruct"# 加载模型 model = AutoModelForCausalLM.from_pretrained( MODEL_ID, torch_dtype=torch.float16, device_map=infer_auto_device()) tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)# 配置生成参数 generation_config = GenerationConfig.from_model_config(model.config) generation_config.max_new_tokens =512 generation_config.temperature =0.7 generation_config.top_p =0.9 generation_config.do_sample =True generation_config.pad_token_id = tokenizer.eos_token_id # 推理函数defgenerate_response(prompt:str)->str: inputs = tokenizer(prompt, return_tensors="pt").to(model.device)with torch.no_grad(): outputs = model.generate( inputs, generation_config=generation_config ) response = tokenizer.decode(outputs[0], skip_special_tokens=True)return response # 测试if __name__ =="__main__": prompt ="请介绍一下Qwen3.5-9B模型的技术特点" response = generate_response(prompt)print(f"用户：{prompt}\n模型：{response}")

9.2 API服务封装

# api_server.pyfrom fastapi import FastAPI from pydantic import BaseModel from deploy import generate_response, model, tokenizer app = FastAPI()classRequest(BaseModel): prompt:str max_tokens:int=512 temperature:[email protected]("/generate")asyncdefgenerate(request: Request): response = generate_response(request.prompt)return{"response": response}if __name__ =="__main__":import uvicorn uvicorn.run(app, host="0.0.0.0", port=8080)

# 启动服务 python api_server.py # 测试APIcurl-X POST "http://localhost:8080/generate"\-H"Content-Type: application/json"\-d'{"prompt": "你好，Qwen3.5"}'

9.3 多模态推理

# multimodal.pyimport torch from transformers import AutoModelForVision2Seq, AutoProcessor MODEL_ID ="Qwen/Qwen3.5-4B-Vision"# 加载模型 model = AutoModelForVision2Seq.from_pretrained( MODEL_ID, torch_dtype=torch.float16 ) processor = AutoProcessor.from_pretrained(MODEL_ID)defprocess_multimodal(text:str, image_path:str):from PIL import Image # 加载图像 image = Image.open(image_path).convert("RGB")# 处理输入 inputs = processor(text=text, images=image, return_tensors="pt")# 推理with torch.no_grad(): outputs = model.generate(**inputs)# 解码 response = processor.decode(outputs[0])return response

十、引用与参考资料

10.1 数据来源

本文数据来源：

10.2 官方资源

10.3 社区资源

十一、总结

Qwen3.5-9B的突破，标志着AI发展的一个重要转折点：

11.1 核心亮点

✅ 参数效率：9B参数超越13.5倍大的模型
✅ 技术架构：混合效率+原生多模态
✅ 基准测试：在5大测试中全面超越对标
✅ 硬件友好：单GPU即可流畅运行
✅ 开源许可：Apache 2.0，商业友好
✅ 生态丰富：Base + Instruct双重选择

11.2 适用场景

场景	推荐模型	理由
边缘设备	Qwen3.5-0.8B/2B	电池友好、低延迟
轻量级Agent	Qwen3.5-4B	大上下文、原声多模态
多功能Agent	Qwen3.5-9B	强大推理、全面多模态
企业定制	Qwen3.5-9B-Base	空白板、易于微调

11.3 给读者的建议

给开发者的建议：

根据实际应用场景选择合适的模型
优先考虑Base模型进行定制化
充分利用Apache 2.0许可证的商业友好性

给企业的建议：

评估本地部署的成本优势
考虑Qwen3.5系列作为企业AI基础设施
结合实际业务场景选择合适的模型

给研究者的建议：

深入研究混合效率架构
探索原生多模态的训练方法
参与开源社区，贡献代码

想要深入学习Qwen3.5系列的技术细节？

👉 访问Hugging Face模型卡片，查看完整的技术文档

👉 下载模型权重，尝试本地部署

👉 参与Qwen Discord社区，与其他开发者交流

觉得这篇文章有帮助？

👉 分享这篇文章，帮助更多开发者了解国产AI的最新进展

一、前言：AI圈的"小模型奇迹"

1.1 2025-2026年最热门的AI话题

1.2 核心数据对比

1.3 为什么这令人震惊？

二、Qwen3.5系列：小而强大的四大金刚

2.1 Qwen3.5-0.8B & 2B：手机也能跑的"快准狠"

2.1.1 模型定位

2.1.2 核心特性

2.1.3 应用场景

2.2 Qwen3.5-4B：轻量级Agent的强大多模态基础

2.2.1 模型定位

2.2.2 核心特性

2.2.3 应用场景

2.3 Qwen3.5-9B：打破"参数迷信"的推理王者

2.3.1 模型对比

2.3.2 硬件需求

三、技术架构：混合效率+原生多模态

3.1 混合效率架构

3.1.1 传统Transformer的问题

3.1.2 混合效率架构

3.2 原生多模态

3.2.1 传统多模态架构的问题

3.2.2 原生多模态架构

四、基准测试：9B vs 120B，谁赢了？

4.1 基准测试方法论

4.1.1 推理能力测试

4.1.2 数学能力测试

4.1.3 文档理解测试

4.2 多模态能力测试

4.2.1 视频理解

4.2.2 多语言知识

4.3 基准测试总结

五、部署与应用场景：笔记本电脑就能跑

5.1 硬件需求

5.1.1 各模型的硬件需求

5.1.2 实测部署案例

5.2 应用场景详解

场景1：边缘设备AI助手

场景2：轻量级Agent

场景3：多功能Agent

六、开源许可：Apache 2.0的商业友好

6.1 许可证详解

6.1.1 许可证核心条款

6.1.2 商业使用优势

6.2 生态影响

6.2.1 开发者反响

6.2.2 企业级应用

6.3 Base模型 vs Instruct模型

七、结论：小模型超越大模型是必然趋势

7.1 核心观点

7.2 行业意义

7.2.1 "Agentic Realignment"时代

7.2.2 本地优先AI的普及

7.2.3 边缘部署与成本优化

7.3 技术对比总结

八、踩坑记录

⚠️ 坑1：混淆"OpenAI的开源"与"GPT-oss-120B"

⚠️ 坑2：忽视模型适用场景

⚠️ 坑3：忽视Base模型的价值

✅ 案例：开发者实测

九、实战代码示例

9.1 本地部署

9.2 API服务封装

9.3 多模态推理

十、引用与参考资料

10.1 数据来源

10.2 官方资源

10.3 社区资源

十一、总结

11.1 核心亮点

11.2 适用场景

11.3 给读者的建议

Read more

深挖 DeepSeek 隐藏玩法·智能炼金术2.0版本

【AI大模型】DeepSeek + 通义万相高效制作AI视频实战详解

【DeepSeek微调实践】DeepSeek-R1大模型基于MS-Swift框架部署/推理/微调实践大全

DeepSeek各版本说明与优缺点分析_deepseek各版本区别