【全网最全的的本地部署Code Agent攻略参考】跃阶星辰AI开源Step-3.5-Flash

Ne0inhk

26 Mar 2026 — 14 min read

1. 简介

Step 3.5 Flash（访问官网）是我们目前最强大的开源基础模型，专为提供前沿推理与智能体能力而设计，同时具备卓越的效率。基于稀疏混合专家（MoE）架构，它每处理一个token仅激活1960亿参数中的110亿。这种"智能密度"使其推理深度可比肩顶级闭源模型，同时保持实时交互所需的敏捷性。

2. 核心能力

高速深度推理：聊天机器人擅长阅读，而智能体必须快速推理。通过三路多token预测（MTP-3）技术，Step 3.5 Flash在典型使用场景中实现100-300 tok/s的生成吞吐量（单流编码任务峰值达350 tok/s），能即时响应复杂的多步推理链条。
编码与智能体的强力引擎：Step 3.5 Flash专为智能体任务打造，集成可扩展的强化学习框架驱动持续自我进化。其SWE-bench Verified通过率74.4%，Terminal-Bench 2.0通过率51.0%，证明其能以稳定性能处理复杂长周期任务。
高效长上下文：模型采用3:1滑动窗口注意力（SWA）比例，支持经济高效的256K上下文窗口——每层全注意力层搭配三层SWA层。这种混合方案确保海量数据或长代码库场景下的稳定表现，同时显著降低标准长上下文模型常见的计算开销。
便捷本地部署：Step 3.5 Flash针对易用性优化，将顶级智能带入本地环境。可在高端消费级硬件（如Mac Studio M4 Max、NVIDIA DGX Spark）上安全运行，在保障数据隐私的同时不牺牲性能。

3. 性能表现

Step 3.5 Flash在保持开放与高效的同时，实现了与领先闭源系统同等的性能。

Step 3.5 Flash在推理、编程和代理能力方面的性能表现。开源模型（左侧）按其总参数量排序，顶级专有模型展示在右侧。xbench-DeepSearch分数均引自官方出版物以确保一致性。阴影条代表Step 3.5 Flash采用并行思维技术后的增强性能。

详细基准测试

Benchmark	Step 3.5 Flash	DeepSeek V3.2	Kimi K2 Thinking / K2.5	GLM-4.7	MiniMax M2.1	MiMo-V2 Flash
# Activated Params	11B	37B	32B	32B	10B	15B
# Total Params (MoE)	196B	671B	1T	355B	230B	309B
Est. decoding cost (@ 128K context, Hopper GPU**)	1.0x (100 tok/s, MTP-3, EP8)	6.0x (33 tok/s, MTP-1, EP32)	18.9x (33 tok/s, no MTP, EP32)	18.9x (100 tok/s, MTP-3, EP8)	3.9x (100 tok/s, MTP-3, EP8)	1.2x (100 tok/s, MTP-3, EP8)
Agency
τ²-Bench	88.2	80.3	74.3* / —	87.4	80.2*	80.3
BrowseComp	51.6	51.4	41.5* / 60.6	52.0	47.4	45.4
BrowseComp (w/ Context Manager)	69.0	67.6	60.2 / 74.9	67.5	62.0	58.3
BrowseComp-ZH	66.9	65.0	62.3 / 62.3*	66.6	47.8*	51.2*
BrowseComp-ZH (w/ Context Manager)	73.7	—	— / —	—	—	—
GAIA (no file)	84.5	75.1*	75.6* / 75.9*	61.9*	64.3*	78.2*
xbench-DeepSearch (2025.05)	83.7	78.0*	76.0* / 76.7*	72.0*	68.7*	69.3*
xbench-DeepSearch (2025.10)	56.3	55.7*	— / 40+	52.3*	43.0*	44.0*
ResearchRubrics	65.3	55.8*	56.2* / 59.5*	62.0*	60.2*	54.3*
Reasoning
AIME 2025	97.3	93.1	94.5 / 96.1	95.7	83.0	94.1 (95.1*)
HMMT 2025 (Feb.)	98.4	92.5	89.4 / 95.4	97.1	71.0*	84.4 (95.4*)
HMMT 2025 (Nov.)	94.0	90.2	89.2* / —	93.5	74.3*	91.0*
IMOAnswerBench	85.4	78.3	78.6 / 81.8	82.0	60.4*	80.9*
Coding
LiveCodeBench-V6	86.4	83.3	83.1 / 85.0	84.9	—	80.6 (81.6*)
SWE-bench Verified	74.4	73.1	71.3 / 76.8	73.8	74.0	73.4
Terminal-Bench 2.0	51.0	46.4	35.7* / 50.8	41.0	47.9	38.5

备注：

“—” 表示分数未公开或未测试。
“*” 表示原始分数无法获取或低于我们复现的结果，因此我们按照与 Step 3.5 Flash 相同的测试条件进行评估，以确保公平可比性。
BrowseComp（带上下文管理器）：当有效上下文长度超过预设阈值时，代理会重置上下文并重启代理循环。相比之下，Kimi K2.5 和 DeepSeek-V3.2 采用了“全丢弃”策略。
解码成本：估算方法类似于 arxiv.org/abs/2507.19427 中描述的方式，但精度更高。

4. 架构细节

Step 3.5 Flash 基于 稀疏混合专家（MoE） Transformer 架构构建，专为推理时的高吞吐量和低显存占用优化。

4.1 技术规格

组件	规格
主干架构	45 层 Transformer（4,096 隐藏维度）
上下文窗口	256K
词表	128,896 个 token
总参数量	1968.1 亿（1960 亿主干 + 8.1 亿头部）
激活参数量	约 110 亿（每 token 生成时）

4.2 混合专家（MoE）路由

与传统密集模型不同，Step 3.5 Flash 采用细粒度路由策略以最大化效率：

细粒度专家：每层 288 个路由专家 + 1 个共享专家（始终激活）。
稀疏激活：每个 token 仅选择 Top-8 专家。
效果：模型保留 1960 亿参数规模的“记忆”，但以 110 亿参数模型的速度执行。

4.3 多 token 预测（MTP）

为提升推理速度，我们采用了专用的 MTP 头部模块，包含滑动窗口注意力机制和密集前馈网络（FFN）。该模块在单次前向传播中同时预测 4 个 token，显著加速推理且不降低质量。

5. 快速开始

您可以通过我们支持的提供商使用云API，在几分钟内开始使用Step 3.5 Flash。

5.1 获取API密钥

在OpenRouter或platform.stepfun.ai注册并获取您的API密钥。

OpenRouter目前为Step 3.5 Flash提供免费试用。

提供商	网站	基础网址
OpenRouter	https://openrouter.ai	https://openrouter.ai/api/v1
StepFun	https://platform.stepfun.ai	https://api.stepfun.ai/v1

5.2 安装配置

安装标准的OpenAI SDK（兼容两个平台）。

pip install --upgrade "openai>=1.0"

注意：OpenRouter 支持多种 SDK。了解更多信息请点击此处。

5.3 实现示例

本示例展示了如何与 Step 3.5 Flash 开始聊天。

from openai import OpenAI client = OpenAI( api_key="YOUR_API_KEY", base_url="https://api.stepfun.ai/v1",# or "https://openrouter.ai/api/v1"# Optional: OpenRouter headers for app rankings default_headers={"HTTP-Referer":"<YOUR_SITE_URL>","X-Title":"<YOUR_SITE_NAME>",}) completion = client.chat.completions.create( model="step-3.5-flash",# Use "stepfun/step-3.5-flash" for OpenRouter messages=[{"role":"system","content":"You are an AI chat assistant provided by StepFun. You are good at Chinese, English, and many other languages.",},{"role":"user","content":"Introduce StepFun's artificial intelligence capabilities."},],)print(completion.choices[0].message.content)

6. 本地部署

步骤3.5 Flash针对本地推理进行了优化，支持包括vLLM、SGLang、Hugging Face Transformers和llama.cpp在内的行业标准后端。

6.1 vLLM

我们推荐使用vLLM的最新nightly版本。

安装vLLM。

# via Dockerdocker pull vllm/vllm-openai:nightly # or via pip (nightly wheels) pip install -U vllm --pre \ --index-url https://pypi.org/simple \ --extra-index-url https://wheels.vllm.ai/nightly

启动服务器。

注意：vLLM 目前尚不支持完整的 MTP3 功能。我们正在积极开发一个拉取请求以集成此功能，预计这将显著提升解码性能。

针对 fp8 模型

vllm serve <MODEL_PATH_OR_HF_ID>\ --served-model-name step3p5-flash \ --tensor-parallel-size 8\ --enable-expert-parallel \ --disable-cascade-attn \ --reasoning-parser step3p5 \ --enable-auto-tool-choice \ --tool-call-parser step3p5 \ --hf-overrides '{"num_nextn_predict_layers": 1}'\ --speculative_config '{"method": "step3p5_mtp", "num_speculative_tokens": 1}'\ --trust-remote-code \ --quantization fp8

针对bf16模型

vllm serve <MODEL_PATH_OR_HF_ID>\ --served-model-name step3p5-flash \ --tensor-parallel-size 8\ --enable-expert-parallel \ --disable-cascade-attn \ --reasoning-parser step3p5 \ --enable-auto-tool-choice \ --tool-call-parser step3p5 \ --hf-overrides '{"num_nextn_predict_layers": 1}'\ --speculative_config '{"method": "step3p5_mtp", "num_speculative_tokens": 1}'\ --trust-remote-code

你也可以参考 Step-3.5-Flash 配方。

6.2 SGLang

安装 SGLang。

# via Dockerdocker pull lmsysorg/sglang:dev-pr-18084 # or from source (pip) pip install"sglang[all] @ git+https://github.com/sgl-project/sglang.git"

启动服务器。

针对bf16模型

sglang serve --model-path <MODEL_PATH_OR_HF_ID>\ --served-model-name step3p5-flash \ --tp-size 8\ --tool-call-parser step3p5 \ --reasoning-parser step3p5 \ --speculative-algorithm EAGLE \ --speculative-num-steps 3\ --speculative-eagle-topk 1\ --speculative-num-draft-tokens 4\ --enable-multi-layer-eagle \ --host 0.0.0.0 \ --port 8000

对于fp8模型

sglang serve --model-path <MODEL_PATH_OR_HF_ID>\ --served-model-name step3p5-flash \ --tp-size 8\ --ep-size 8\ --tool-call-parser step3p5 \ --reasoning-parser step3p5 \ --speculative-algorithm EAGLE \ --speculative-num-steps 3\ --speculative-eagle-topk 1\ --speculative-num-draft-tokens 4\ --enable-multi-layer-eagle \ --host 0.0.0.0 \ --port 8000

6.3 Transformers（调试/验证）

使用此代码片段进行快速功能验证。如需高吞吐量服务，请使用vLLM或SGLang。

from transformers import AutoModelForCausalLM, AutoTokenizer MODEL_PATH ="<MODEL_PATH_OR_HF_ID>"# 1. Setup tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH) model = AutoModelForCausalLM.from_pretrained( MODEL_PATH, trust_remote_code=True, torch_dtype="auto", device_map="auto",)# 2. Prepare Input messages =[{"role":"user","content":"Explain the significance of the number 42."}] inputs = tokenizer.apply_chat_template( messages, tokenize=True, add_generation_prompt=True, return_dict=True, return_tensors="pt",).to(model.device)# 3. Generate generated_ids = model.generate(**inputs, max_new_tokens=128, do_sample=False) output_text = tokenizer.decode(generated_ids[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)print(output_text)

6.4 llama.cpp

系统需求

GGUF模型权重(int4量化版)：111.5GB
运行时开销：约7GB
最低显存要求：120GB（例如Mac Studio、DGX-Spark、AMD Ryzen AI Max+ 395等设备）
推荐配置：128GB统一内存

步骤

使用llama.cpp：

git clone [email protected]:stepfun-ai/Step-3.5-Flash.git cd Step-3.5-Flash/llama.cpp

在Mac上构建llama.cpp

cmake -S . -B build-macos \ -DCMAKE_BUILD_TYPE=Release \ -DGGML_METAL=ON \ -DGGML_ACCELERATE=ON \ -DLLAMA_BUILD_EXAMPLES=ON \ -DLLAMA_BUILD_COMMON=ON \ -DGGML_LTO=ON cmake --build build-macos -j8

在DGX-Spark上构建llama.cpp：

cmake -S . -B build-cuda \ -DCMAKE_BUILD_TYPE=Release \ -DGGML_CUDA=ON \ -DGGML_CUDA_GRAPHS=ON \ -DLLAMA_CURL=OFF \ -DLLAMA_BUILD_EXAMPLES=ON \ -DLLAMA_BUILD_COMMON=ON cmake --build build-cuda -j8

在AMD Windows上构建llama.cpp

cmake -S . -B build-vulkan \ -DCMAKE_BUILD_TYPE=Release \ -DLLAMA_CURL=OFF \ -DGGML_OPENMP=ON \ -DGGML_VULKAN=ON cmake --build build-vulkan -j8

使用 llama-cli 运行

./llama-cli -m step3.5_flash_Q4_K_S.gguf -c 16384 -b 2048 -ub 2048 -fa on --temp 1.0 -p "What's your name?"

使用llama-batched-bench测试性能：

./llama-batched-bench -m step3.5_flash_Q4_K_S.gguf -c 32768 -b 2048 -ub 2048 -npp 0,2048,8192,16384,32768 -ntg 128 -npl 1

7. 在代理平台使用Step 3.5 Flash

7.1 Claude Code与Codex平台

在大多数编程环境中，将Step 3.5 Flash添加到模型列表非常简单。以下是配置Claude Code和Codex使用Step 3.5 Flash的说明。

7.1.1 准备工作

如快速入门所述，请先在StepFun.ai或OpenRouter注册并获取API密钥。

7.1.2 环境配置

Claude Code和Codex依赖Node.js运行环境。建议安装Node.js版本>v20，可通过nvm工具进行安装。

Mac/Linux:

# Install nvm on Mac/Linux via curl：# Step 1curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.0/install.sh |bash# Copy the full commandexportNVM_DIR="$HOME/.nvm"[ -s "$NVM_DIR/nvm.sh"]&&\. "$NVM_DIR/nvm.sh"# This loads nvm[ -s "$NVM_DIR/bash_completion"]&&\. "$NVM_DIR/bash_completion"# Users in China can set up npm mirror config set registry https://registry.npmmirror.com # Step 2 nvm install v22 # Make sure Node.js is installednode --version npm --version

Windows：
您可以从 https://github.com/coreybutler/nvm-windows/releases 下载安装文件（nvm-setup.exe）。按照说明安装nvm。运行nvm命令以确保安装成功。

7.1.3 使用步骤 3.5 在Claude Code上刷机

安装Claude Code。

# install claude code via npmnpminstall -g @anthropic-ai/claude-code # test if the installation is successful claude --version

配置Claude代码。

为适应Claude Code中的多样化工作流程，我们同时支持Anthropic风格和OpenAI风格的API接口。

选项A：Anthropic API风格:

如需使用OpenRouter API，请参阅OpenRouter集成指南。

第一步：编辑Claude设置。更新~/.claude/settings.json.

您只需修改下方显示的字段。其余部分保持不变。

{"env":{"ANTHROPIC_API_KEY":"API_KEY_from_StepFun","ANTHROPIC_BASE_URL":"https://api.stepfun.ai/"},"model":"step-3.5-flash"}

步骤2：启动Claude代码

保存文件后，启动Claude代码。运行/status命令确认模型和基础URL。

❯ /status ───────────────────────────────────────────────────────────────────────────────── Settings: Status Config Usage (←/→ or tab to cycle) Version: 2.1.1 Session name: /rename to add a name Session ID: 676dae61-259d-4eef-8c2f-0f1641600553 cwd: /Users/step-test/ Auth token: none API key: ANTHROPIC_API_KEY Anthropic base URL: https://api.stepfun.ai/ Model: step-3.5-flash Setting sources: User settings

选项B：OpenAI API风格

注：此处的OpenAI API风格指chat/completions/格式。

推荐使用claude-code-router。详情参见https://github.com/musistudio/claude-code-router。

安装Claude Code后，请安装claude-code-router：

# install ccr via npmnpminstall -g @musistudio/claude-code-router # validate it is installed ccr -v

将以下配置添加到 ~/.claude-code-router/config.json 中。

{"PORT":3456,"Providers":[{"name":"stepfun-api","api_base_url":"https://api.stepfun.com/v1/chat/completions","api_key":"StepFun_API_KEY","models":["step-3.5-flash"],"transformer":{"step-3.5-flash":{"use":["OpenAI"]}}}],"Router":{"default":"stepfun-api,step-3.5-flash","background":"stepfun-api,step-3.5-flash","think":"stepfun-api,step-3.5-flash","longContext":"stepfun-api,step-3.5-flash","webSearch":"stepfun-api,step-3.5-flash"}}

您现在可以启动Claude代码：

# Start Claude ccr code # restart ccr if configs are changed ccr restart

7.1.4 使用步骤3.5 在Codex上刷机

安装Codex

# Install codex via npmnpminstall -g @openai/codex # Test if it is installed codex --version

配置 Codex
将以下设置添加到 ~/.codex/config.toml 中，其余设置保持不变。

model="step-3.5-flash" model_provider ="stepfun-chat" preferred_auth_method ="apikey" # configure the provider [model_providers.stepfun-chat] name ="OpenAI using response" base_url ="https://api.stepfun.com/v1" env_key ="OPENAI_API_KEY" wire_api ="chat" query_params ={}

对于Codex，wire_api仅支持chat模式。如果使用responses模式，需要切换为chat模式。同时请将model_provider更改为新配置的stepfun-chat。

完成配置后，请在新终端窗口运行codex以启动Codex。执行/status命令可检查配置状态。

/status 📂 Workspace • Path: /Users/step-test/ • Approval Mode: on-request • Sandbox: workspace-write • AGENTS files: (none) 🧠 Model • Name: step-3.5-flash • Provider: Stepfun-chat 💻 Client • CLI Version: 0.40.0

7.1.5 使用步骤3.5 Flash版进行深度研究（Step-DeepResearch）

参考以下环境设置指南，将MODEL_NAME配置为Step-3.5-Flash。环境设置链接

8. 已知问题与未来方向

令牌效率：Step 3.5 Flash实现了前沿水平的智能体能力，但目前需要比Gemini 3.0 Pro更长的生成轨迹才能达到相当的质量。
高效通用精通：我们的目标是统一通用模型的多样性和深度领域专业知识。为了实现这一目标，我们正在推进策略蒸馏的变体方法，使模型能够以更高的样本效率内化专家行为。
强化学习应用于更多智能体任务：虽然Step 3.5 Flash在学术智能体基准测试中表现出竞争力，但智能体AI的下一个前沿需要将强化学习应用于专业工作、工程和研究中的复杂专家级任务。
操作范围与限制：Step 3.5 Flash专为编码和工作任务优化，但在分布变化时稳定性可能降低。这种情况通常出现在高度专业化领域或长期多轮对话中，模型可能出现重复推理、混合语言输出或时间和身份认知不一致的问题。

9. 共同开发未来

我们将发展路线图视为一份动态文档，根据实际使用情况和开发者反馈持续演进。
在通过扩展通用模型能力塑造AGI未来的过程中，我们希望确保解决的是正确的问题。我们邀请您加入这一持续的反馈循环——您的见解将直接影响我们的优先级。

参与讨论：我们的Discord社区是构思未来架构、提议新功能并获取早期访问更新的主要平台 🚀
反馈问题：遇到限制？您可以在GitHub提交问题，或直接在Discord支持频道中标记。

许可证

本项目采用Apache 2.0许可证开源。