拆解 Llama 4 Scout:Meta 新一代 MoE 模型到底强在哪

拆解 Llama 4 Scout:Meta 新一代 MoE 模型到底强在哪

摘要

Meta 于 2025 年 4 月发布的 Llama 4 Scout,是其首次将混合专家(MoE)架构引入 Llama 系列的轻量化先锋模型。作为 Llama 4 家族的入门级 MoE 型号,该模型在参数规模与部署效率间实现了精准平衡:总参数达 109B,但单 token 仅激活 17B 参数,结合原生多模态能力与行业领先的 10M token 上下文窗口,既具备处理复杂任务的潜力,又支持在单张 NVIDIA H100 GPU 上完成高效部署。

官方数据显示,Llama 4 Scout 在 MMLU、ChartQA 等主流基准测试中,显著优于 Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1 等同期同量级模型;其 10M token 上下文窗口更是突破了传统长文本处理的瓶颈,为多文档摘要、代码库全量分析等场景提供了原生支持。本报告将从技术架构、训练数据、性能基准、优劣势对比及典型应用场景等维度,对其进行系统拆解。


1. 引言与核心定位

自 2023 年 Llama 系列首次开源以来,Meta 始终在平衡模型性能与可及性的赛道上持续迭代 —— 从初代的 7B/13B 密集模型,到 Llama 3 的 70B 大参数版本,每一代都在试图突破 “更大参数 = 更好性能” 的行业惯性。而 Llama 4 Scout 的推出,标志着这一思路的根本性转变:它不再追求单纯的参数规模堆叠,而是通过 MoE 稀疏架构,将算力集中到核心任务上,同时首次引入原生多模态能力,填补了 Llama 系列在跨模态理解上的空白。

1.1 模型定位

Llama 4 Scout 的核心设计目标,是为无法负担大规模 GPU 集群的开发者与中小企业,提供一款 “既好用又能用得起” 的强大多模态模型。具体而言,其定位可概括为三个关键维度:

  • 轻量化 MoE 探索者:作为 Llama 家族首款面向大众的 MoE 模型,它以 16 个专家的稀疏架构,在保持 109B 总参数知识容量的同时,将单 token 激活参数控制在 17B—— 这一设计既避免了密集模型的高算力浪费,又通过专家分工,让每个 token 都能获得更精准的参数资源分配。
  • 超长上下文原生支持:其 10M token 的上下文窗口,将 Llama 3 的 128K 上限提升了 78 倍,无需额外插件或工程优化,即可原生处理百万字级别的长文档、代码库或多模态叙事内容,为企业级知识管理场景提供了直接解决方案。
  • 单 GPU 部署标杆:通过 FP8 训练精度与 int4 动态量化优化,该模型可完整运行于单张 NVIDIA H100 GPU—— 这一特性大幅降低了大模型的部署门槛,让中小企业无需投入百万级算力集群,就能搭建私有化的多模态智能助手。

1.2 版本与命名

Llama 4 Scout 的正式型号为meta-llama/llama-4-scout-17b-16e-instruct,其命名规则直接映射了核心架构特征:

  • 17b:单 token 激活的参数规模,代表模型实际参与计算的 “有效算力”,确保了推理效率;
  • 16e:MoE 层包含的专家网络数量,专家越多,模型对不同任务的适配能力越强;
  • instruct:表示该版本经过指令微调,专门针对对话交互、任务执行等场景优化,而非单纯的基础预训练模型。

这一命名体系清晰传递了 Meta 的设计逻辑:用户无需深入技术细节,就能通过型号快速判断模型的核心能力与部署要求。

【OpenAI】获取OpenAI API Key的多种方式全攻略:从入门到精通,再到详解教程!

2. 技术架构详解

Llama 4 Scout 的技术优势,源于其在 MoE 稀疏架构、多模态融合与长上下文机制上的三重创新 —— 这三个模块并非孤立存在,而是形成了 “稀疏算力支撑长上下文、长上下文承载多模态、多模态拓展任务边界” 的协同效应。

2.1 混合专家(MoE)架构

混合专家(MoE)是 Llama 4 Scout 最核心的技术底座,其本质是 “分而治之” 的工程思路:将传统密集模型的单一参数矩阵,拆分为多个小型 “专家” 子网络,每个专家专门处理特定类型的输入 token;同时通过一个轻量级的路由器网络,为每个 token 选择最适配的专家,从而在不增加单 token 计算量的前提下,提升模型的知识容量与任务适配性。

2.1.1 核心参数配置

Llama 4 Scout 的 MoE 架构参数,经过了 Meta 的反复调校,在知识容量与推理效率间找到了精准平衡点:

  • 总参数规模:109B,由 16 个独立的专家网络与路由器参数共同构成,确保模型能覆盖足够广泛的知识域;
  • 激活参数规模:17B,即每个输入 token 仅会触发 1/8 的总参数参与计算 —— 这一比例既避免了算力浪费,又能让每个专家聚焦于自身擅长的任务领域;
  • 专家数量:16 个,这一数量是 Meta 在 “任务多样性” 与 “路由器开销” 之间的最优选择:太少专家会导致任务过载,太多则会增加路由器的决策成本,反而降低效率。
2.1.2 路由机制与激活策略

为解决传统 MoE 模型的 “专家坍塌” 与 “通信瓶颈” 问题,Meta 为 Llama 4 Scout 设计了一套定制化的稀疏激活方案:

  • Top-1 Routerless Dropless Routing:与传统 MoE 的 “路由器预测 + 多专家激活” 逻辑不同,该模型采用了更简洁的 “无路由器直接分配” 策略 —— 每个 token 会被直接分配给 1 个最优专家,且不会因路由器的错误预测导致 “无专家处理” 的情况(即 Dropless 设计)。这一机制既降低了路由器的计算开销,又避免了专家负载不均的问题,让每个专家的利用率提升了约 30%。
  • 异步专家并行(EP):在模型前向传播时,Token 分配、专家计算与结果聚合三个步骤,会通过异步通信的方式重叠执行 —— 比如在 Token 进行 all-to-all 分发的同时,专家层就开始准备计算资源,无需等待所有 Token 都到达后再启动。这一优化将 MoE 层的通信延迟降低了约 40%,进一步提升了整体推理效率。
  • SwiGLU 激活函数:所有专家网络均采用 SwiGLU 激活单元,这一函数结合了线性变换与门控机制,能更高效地捕捉输入数据中的非线性特征,相比传统的 ReLU 激活,模型的任务准确率平均提升了约 5%。

此外,每个 MoE 层还包含一个小型的 “共享专家”—— 这个专家始终处于激活状态,负责处理所有 Token 的基础语义理解,避免了 “边缘 Token 找不到适配专家” 的情况,为模型的基础性能提供了兜底保障。

2.2 原生多模态能力

与 Llama 系列此前的 “文本优先、多模态插件适配” 思路不同,Llama 4 Scout 采用了 “早期融合(Early Fusion)” 的原生多模态架构 —— 这意味着模型从预训练阶段就开始同步处理文本与图像数据,而非在推理阶段通过外接编码器实现跨模态转换。

2.2.1 多模态输入支持

该模型的多模态输入能力,经过了严格的场景验证,具体参数如下:

  • 输入格式:支持文本与最多 5 张图像的并行输入,图像输入会先通过 Meta 自研的 MetaCLIP 视觉编码器,转换为与文本 Token 格式一致的视觉 Token;
  • 输出格式:纯文本输出,可覆盖图像描述、图表解析、视觉问答等绝大多数跨模态任务需求;
  • 图像理解限制:目前仅支持英文语境下的图像理解 —— 这并非技术瓶颈,而是 Meta 在训练数据上的取舍:英文图像标注数据的质量更高,能更好地保障模型的跨模态对齐精度。
2.2.2 早期融合技术细节

早期融合的核心逻辑,是 “统一编码、共同训练”,其具体实现方式可分为三个步骤:

  1. MetaCLIP 视觉编码器:图像数据会先经过 MetaCLIP 的编码,生成固定长度的视觉 Token—— 这一编码器与 Llama 的文本编码器在预训练阶段就已对齐,确保视觉 Token 与文本 Token 的语义空间完全兼容,不会出现 “跨模态语义断层” 的问题;
  2. 输入层 Token 拼接:视觉 Token 会与文本 Token 在模型的输入层直接拼接,共同进入后续的 MoE 层处理 —— 这意味着模型从第一个计算步骤开始,就将图像与文本视为统一的语义实体,而非两个独立的输入源;
  3. 联合预训练:文本与图像数据会同步参与预训练过程,模型会学习跨模态的语义关联(比如 “猫” 的文本 Token 与猫的图像特征之间的对应关系)。这一机制让模型的跨模态理解能力,比传统的 “后期融合” 模型提升了约 15%。

2.3 超长上下文机制

支撑 Llama 4 Scout 10M token 上下文窗口的核心技术,是 Meta 自研的iRoPE(Interleaved Rotary Position Embedding,交错旋转位置编码) —— 这一技术解决了传统 RoPE 在长序列下的 “位置信息衰减” 问题,让模型能高效处理百万字级别的长文本。

2.3.1 上下文长度参数

该模型的上下文参数,并非单纯的 “数值提升”,而是基于实际场景需求的精准设计:

  • 标称上下文窗口:10M token,足以容纳约 7500 页纯文本(按中文平均每页 1300 字、每字对应 1.3 个 Token 计算),或包含图像的长文档;
  • 最大训练序列长度:256K token——Meta 并未直接在 10M 序列上训练,而是通过 iRoPE 的长度外推能力,让模型在短序列上学习的位置编码规律,能泛化到 10M 级别的长序列。这一策略将训练成本降低了约 60%;
  • 云厂商部署限制:部分云服务商(如 Oracle)为了保障集群稳定性,会将单轮请求的最大 Token 长度限制为 192K—— 这并非模型本身的技术上限,而是云厂商的资源调度策略,用户可通过私有化部署突破这一限制。
2.3.2 iRoPE 技术原理

iRoPE 的核心创新,是 “交错式位置编码”,其工作机制可分为三个关键环节:

  • 交错层设计:将传统的连续 RoPE 层,拆分为 “长距离注意力层” 与 “短距离注意力层”,交错堆叠 —— 长距离层负责捕捉文本的整体逻辑脉络(比如章节之间的关联),短距离层负责处理局部语义(比如句子内部的语法关系)。这一设计避免了长序列下的位置信息混淆,让模型能同时兼顾长文本的全局结构与局部细节;
  • 长度外推优化:在预训练阶段,模型会通过动态调整序列长度的方式,学习 “从短序列到长序列” 的位置编码泛化能力。最终,模型能在未见过的 10M 长序列上,保持约 90% 的短序列性能,而传统 RoPE 模型在长序列下的性能仅能保留约 60%;
  • 局部注意力增强:对于超过 256K 的长序列,模型会自动切换为局部注意力机制 —— 仅对每个 Token 前后的一定范围(如 1024 个 Token)计算注意力,而非对整个序列计算。这一机制将长序列的推理显存占用降低了约 50%,让 10M Token 的处理成为可能。

3. 训练数据与预训练过程

训练数据的规模与质量,是 Llama 4 Scout 能实现 “小激活参数、强任务能力” 的核心支撑 ——Meta 为其准备了 40 万亿 Token 的多模态数据集,这一规模是 Llama 2 的 22 倍、Llama 3 的 2.7 倍。

3.1 数据规模与来源

Llama 4 Scout 的预训练数据,由 “公开可用数据”“商业授权数据” 与 “Meta 产品生态数据” 三部分构成,三者的占比约为 6:3:1—— 这一比例既保障了数据的多样性,又通过 Meta 生态数据的高互动性,提升了模型的对话能力。

具体数据来源与规模如下:

  • 公开可用数据:包括维基百科、学术论文、开源代码仓库等公开资源,占总数据量的 60% 左右。这部分数据为模型提供了基础的知识体系,比如科学常识、历史事件、编程语言语法等;
  • 商业授权数据:来自专业数据库、新闻媒体与出版机构的授权内容,占总数据量的 30%。这部分数据的质量更高,能有效提升模型在专业领域的回答准确率,比如法律条文、医学指南等;
  • Meta 产品生态数据:包括 Instagram 公开帖子、Facebook 公开内容,以及用户与 Meta AI 的交互记录,占总数据量的 10%。这部分数据的核心价值,是让模型学习 “人类的对话逻辑”—— 比如如何理解用户的隐含需求、如何生成自然流畅的回复,而非单纯的知识输出。

此外,该数据集覆盖了超过 200 种语言,但仅对其中 12 种语言进行了专门的指令微调 —— 包括阿拉伯语、英语、法语、德语、印地语、印度尼西亚语、意大利语、葡萄牙语、西班牙语、他加禄语、泰语和越南语。这 12 种语言的任务准确率,比其他未微调语言平均高出约 10%。

3.2 数据质量控制

为避免低质量数据导致的模型性能下降,Meta 采用了 “多维度过滤 + 难度筛选” 的严格数据清洗策略:

  • 去重与噪声过滤:首先对所有数据进行严格的去重处理,去除重复内容与低质量网页;随后通过 Llama 3.1 70B 模型对数据进行 “难度评估”,过滤掉 50% 最容易预测的内容(比如重复的问候语、简单的陈述句)。这一步骤让训练数据的平均信息密度提升了约 40%;
  • 隐私保护:对于 Meta 产品生态中的用户数据,会经过多层匿名化处理 —— 比如去除用户 ID、地理位置等敏感信息,仅保留公开可见的内容。同时,用户可通过 Meta 的隐私设置,选择是否允许自己的公开内容用于模型训练;
  • 多模态对齐过滤:对于图像 - 文本对数据,会额外进行 “语义对齐检测”—— 过滤掉图像与文本描述不匹配的内容(比如 “猫的图片” 配了 “狗” 的文字)。这一步骤确保了多模态数据的质量,让模型的跨模态理解能力更可靠。

3.3 训练技术栈

为支撑 40 万亿 Token 的大规模预训练,Meta 采用了自研的高性能训练技术栈,核心组件包括:

  • 训练框架:使用 Meta 自研的 Megatron-LM 框架,结合 PyTorch 2.2 的编译优化能力,能高效调度数千张 GPU 进行分布式训练,单批次可处理超过 100 万 Token 的数据;
  • 精度优化:采用 FP8 混合精度训练 —— 在保持模型精度损失小于 1% 的前提下,将显存占用降低了约 50%,让更大规模的预训练成为可能;
  • 超参数优化:通过 MetaP 自研超参数优化算法,自动调整学习率、批次大小等核心训练参数。相比人工调参,这一算法能将训练效率提升约 25%,同时让模型的最终性能提升约 3%;
  • 算力集群:训练过程在 Meta 的定制化 GPU 集群上完成,该集群由超过 10000 张 H100 GPU 组成,能提供每秒超过 1e20 次浮点运算的算力,确保 40 万亿 Token 的预训练能在 6 个月内完成。

4. 性能测试与基准评估

Llama 4 Scout 的性能,在标准学术基准、多模态任务与长上下文场景中,均展现出了同量级模型中的领先水平 —— 但在超大规模长序列场景中,也暴露出了一定的局限性。

4.1 标准学术基准测试

根据官方与第三方机构的测试数据,Llama 4 Scout 在语言理解、代码生成与多模态任务中,均优于同期的 Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1 等模型。

4.1.1 语言理解与推理
基准得分说明
MMLU(5-shot)69.2%覆盖57个学科的多任务基准,通用知识扎实
HellaSwag(10-shot)85.0%常识推理基准,优于同量级约4个百分点
Winogrande(5-shot)78.3%代词指代理解基准,处于同量级顶尖水平
4.1.2 代码生成
基准得分说明
HumanEval(0-shot)59.3%Python代码生成,优于Mistral 3.1约3个百分点
CodeEval(0-shot)57.2%多语言代码生成,覆盖Java、C++等
4.1.3 多模态任务
基准得分说明
ChartQA83.4%图表理解,优于行业平均约7个百分点
DocVQA94.4%文档视觉问答,同量级领先
MathVista70.7%数学视觉问答,优于同量级约5个百分点
MMMU69.4%复杂多模态理解,覆盖专业图表与工程图纸

4.2 长上下文性能评估

尽管标称具备 10M token 的上下文窗口,但该模型的长序列性能,在不同场景下存在显著差异 —— 这一差异主要源于训练数据的长度限制。

4.2.1 原生长序列测试
  • 256K token 以内:保持 90%+ 准确率,满足多文档摘要、代码库分析等企业场景;
  • 超过 256K token:性能明显衰减,第三方测试在 120K token 长文档问答中准确率仅 15.6%,远低于 Gemini 2.5 Pro 的 90.6%。

核心原因:训练数据中 >256K token 长序列占比不足 0.1%,未充分学习长序列语义关联。

4.2.2 实际场景建议

对于超过 256K token 的长文档任务,官方推荐使用 RAG(检索增强生成) 架构:通过向量数据库检索关键片段输入模型,可提升准确率约 40%,降低显存占用约 60%。

4.3 推理效率与硬件适配

4.3.1 推理速度
硬件与精度吞吐量适用场景
H100(FP8)+ TensorRT-LLM40K+ tokens/s高并发企业服务
H100(int4)+ vLLM/TensorRT-LLM20K+ tokens/s单GPU大规模并发
RTX 4090(1.78bit 量化)~20 tokens/s个人开发者轻量测试
4.3.2 显存占用
精度显存占用运行硬件要求
FP16~218GB8×A100 80GB
FP8~109GB2×A100 80GB
int8~54.5GB1×A100 80GB
int4~27GB1×H100

注:处理 10M token 序列需额外预留约 20GB 显存用于中间计算。


5. 与主流模型的对比分析

5.1 与 Llama 4 Maverick 对比

特性Llama 4 ScoutLlama 4 Maverick
激活参数17B17B
总参数109B400B
专家数量16128
上下文长度10M token1M token
单 GPU 运行支持(int4)不支持(需4×H100)
多模态能力基础视觉理解高级视觉推理
推理吞吐量40K+ tokens/s(H100 FP8)30K+ tokens/s(H100 FP8)
定位轻量高效、长文档处理高性能、复杂任务

5.2 与 GPT-4o-mini 对比

特性Llama 4 ScoutGPT-4o-mini
架构MoE(16专家)密集架构
参数规模17B激活参数未公开
上下文长度10M token128K token
多模态支持文本+图像文本+图像
部署方式私有化部署仅API访问
MMLU69.2%68.9%
ChartQA83.4%81.2%
优势超长上下文、私有化、单GPU低延迟、小样本学习更强
劣势超256K性能衰减、英文图像优先窗口小、无法私有化

5.3 与 Mixtral 8x22B 对比

特性Llama 4 ScoutMixtral 8x22B
架构MoE(16专家)MoE(8专家)
总参数109B141B
激活参数17B39B
上下文长度10M token64K token
多模态支持原生支持需外接CLIP编码器
MMLU69.2%67.8%
CodeEval59.3%55.1%
优势原生多模态、超长上下文、单GPU激活参数更高、小模型更均衡
劣势路由器开销略高无原生多模态、窗口小

6. 优势与局限性

6.1 核心优势

  1. 行业领先的长上下文能力:10M token 原生窗口,同量级最大,原生支持百万字长文档/代码库。
  2. 高效 MoE 架构:推理算力效率提升约 3 倍,单 Token 计算量仅为同规模密集模型的 1/3。
  3. 原生多模态支持:早期融合架构,跨模态理解准确率较外接编码器模型提升约 15%。
  4. 极低部署门槛:单 GPU 即可私有化部署,大幅降低中小企业落地成本。
  5. 强大多语言能力:12 种语言指令微调,任务准确率较同量级平均高约 10%。

6.2 局限性与挑战

  1. 超 256K token 性能衰减:长序列语义捕捉能力不足,无法直接胜任千万字级超长文档。
  2. 多模态语言限制:图像理解仅英文优先,其他语言下降约 10%。
  3. 数学推理偏弱:MATH 基准仅 45.2%,远低于 GPT-4o 级别旗舰模型。
  4. MoE 路由器开销:带来约 10% 额外计算延迟,高于同激活参数密集模型。
  5. 云厂商长度限制:部分平台限制单轮 192K,影响实际体验。

7. 典型应用场景

7.1 企业级智能助手

适配内部知识问答、员工培训、流程咨询,支持超长内部文档与数据隐私保护,满足跨境多语言需求。

7.2 长文档分析

适用于法律合同、学术论文、财务报告,可完整加载并提取关键信息,私有化保障敏感数据安全。

7.3 多模态内容创作

支持图文结合生成产品文案、教程、广告素材,本地部署快速生成,无需依赖外部 API。

7.4 代码理解与辅助开发

可加载全量代码库,理解结构与依赖,生成注释与文档,私有化避免核心代码泄露。

7.5 教育与科研辅助

批量处理学术文献,生成综述、润色论文,支持多语言与科研数据隐私保护。


8. 获取方式与部署指南

8.1 官方获取渠道

  • 官网申请:Llama 官网填写表单,1–3 个工作日审核后获取权重下载链接。
  • Hugging Face:模型已上架 Hub,可通过transformers直接加载。
  • 云厂商市场:AWS、NVIDIA、Oracle 提供预部署实例,10 分钟快速启动。

8.2 开源生态支持

  • 推理引擎:vLLM(高并发)、TensorRT-LLM(低延迟)、llama.cpp(消费级)。
  • 量化工具:AutoGPTQ、bitsandbytes,支持 int4/int8 量化。
  • 微调框架:Unsloth、LoRA,低显存高效微调。

8.3 部署注意事项

  • 显存规划:处理 10M token 需在权重外额外预留约 20GB。
  • 量化选择:int4 为单 GPU 最优方案,精度损失 <2%,显存降低约 87%。
  • 长序列优化:>256K 优先使用 RAG。
  • 多模态限制:图像≤5 张,仅英文标注;多语言需额外微调。

9. 结论

Llama 4 Scout 是 Meta 在大模型轻量化与稀疏化方向上的一次成功实践,它不追求全能旗舰,而是在长文档处理、多模态理解、单 GPU 私有化部署三大核心场景实现了对同量级模型的全面超越。

其核心价值在于验证了“稀疏架构 + 长上下文 + 原生多模态”路线的可行性,在不牺牲性能的前提下显著降低部署门槛,为中小企业商业化落地提供了高性价比方案。尽管存在长序列衰减、多模态语言限制等短板,但均有明确优化方向。

在这里插入图片描述

Read more

AI 进化论:从 Function Calling 到 MCP

AI 进化论:从 Function Calling 到 MCP

AI 进化论:从 Function Calling 到 MCP,你的大模型还在“裸奔”吗? 文章目录 * AI 进化论:从 Function Calling 到 MCP,你的大模型还在“裸奔”吗? * 一、 给 AI 装上手脚:Function Calling 到底是个啥? * 1. 专业解释与大白话解读 * 2. 核心功能与代码示例 * 二、 实战演练:搭建你的“门票数据助手” * 1. 业务场景介绍 * 2. 进阶:一次调用,搞定查询 + 可视化 * 三、 MCP:AI 界的“USB-C”接口协议来了! * 1.

AI实践(5)检索增强(RAG)

AI实践(5)检索增强(RAG)

AI实践(5)检索增强(RAG) Author: Once Day Date: 2026年3月2日 一位热衷于Linux学习和开发的菜鸟,试图谱写一场冒险之旅,也许终点只是一场白日梦… 漫漫长路,有人对你微笑过嘛… 全系列文章可参考专栏: AI实践成长_Once-Day的博客-ZEEKLOG博客 参考文章:Prompt Engineering GuideDocumentation - Claude API DocsOpenAI for developers检索增强生成 (RAG) | Prompt Engineering GuideBuild a RAG agent with LangChain - Docs by LangChain一文读懂:大模型RAG(检索增强生成)含高级方法2026 年 RAG 技术最新进展与落地实践指南 - 个人文章 - SegmentFault

AI驱动的PDF文档智能解析:MinerU本地部署与API调用完全指南

什么是MinerU? MinerU是一个将复杂文档(如PDF)转换为LLM就绪的markdown/JSON格式的工具,用于Agentic工作流。相比传统PDF解析工具,MinerU在文档结构解析、多媒体提取、公式识别等方面有着显著优势。 主要功能包括: * 文档结构解析:移除页眉页脚、脚注、页码等,确保语义连贯性 * 内容提取:输出按人类可读顺序排列的文本,支持单列、多列和复杂布局 * 格式保持:保留原始文档结构(标题、段落、列表等) * 多媒体提取:提取图像、图像描述、表格、表格标题和脚注 * 公式识别:自动将文档中的公式转换为LaTeX格式 * 表格识别:自动将表格转换为HTML格式 * OCR支持:自动检测扫描版PDF并启用OCR功能,支持84种语言 * 多平台支持:兼容Windows、Linux、Mac平台,支持CPU/GPU/NPU加速 环境准备与安装 硬件要求 * CPU推理:支持纯CPU环境 * GPU要求:Turing架构及以上,