【全网最全的的本地部署Code Agent攻略参考】跃阶星辰AI开源Step-3.5-Flash

【全网最全的的本地部署Code Agent攻略参考】跃阶星辰AI开源Step-3.5-Flash

1. 简介

Step 3.5 Flash访问官网)是我们目前最强大的开源基础模型,专为提供前沿推理与智能体能力而设计,同时具备卓越的效率。基于稀疏混合专家(MoE)架构,它每处理一个token仅激活1960亿参数中的110亿。这种"智能密度"使其推理深度可比肩顶级闭源模型,同时保持实时交互所需的敏捷性。

2. 核心能力

  • 高速深度推理:聊天机器人擅长阅读,而智能体必须快速推理。通过三路多token预测(MTP-3)技术,Step 3.5 Flash在典型使用场景中实现100-300 tok/s的生成吞吐量(单流编码任务峰值达350 tok/s),能即时响应复杂的多步推理链条。
  • 编码与智能体的强力引擎:Step 3.5 Flash专为智能体任务打造,集成可扩展的强化学习框架驱动持续自我进化。其SWE-bench Verified通过率74.4%Terminal-Bench 2.0通过率51.0%,证明其能以稳定性能处理复杂长周期任务。
  • 高效长上下文:模型采用3:1滑动窗口注意力(SWA)比例,支持经济高效的256K上下文窗口——每层全注意力层搭配三层SWA层。这种混合方案确保海量数据或长代码库场景下的稳定表现,同时显著降低标准长上下文模型常见的计算开销。
  • 便捷本地部署:Step 3.5 Flash针对易用性优化,将顶级智能带入本地环境。可在高端消费级硬件(如Mac Studio M4 Max、NVIDIA DGX Spark)上安全运行,在保障数据隐私的同时不牺牲性能。

3. 性能表现

Step 3.5 Flash在保持开放与高效的同时,实现了与领先闭源系统同等的性能。

在这里插入图片描述

Step 3.5 Flash在推理编程代理能力方面的性能表现。开源模型(左侧)按其总参数量排序,顶级专有模型展示在右侧。xbench-DeepSearch分数均引自官方出版物以确保一致性。阴影条代表Step 3.5 Flash采用并行思维技术后的增强性能。

详细基准测试

BenchmarkStep 3.5 FlashDeepSeek V3.2Kimi K2 Thinking / K2.5GLM-4.7MiniMax M2.1MiMo-V2 Flash
# Activated Params11B37B32B32B10B15B
# Total Params (MoE)196B671B1T355B230B309B
Est. decoding cost (@ 128K context, Hopper GPU**)1.0x (100 tok/s, MTP-3, EP8)6.0x (33 tok/s, MTP-1, EP32)18.9x (33 tok/s, no MTP, EP32)18.9x (100 tok/s, MTP-3, EP8)3.9x (100 tok/s, MTP-3, EP8)1.2x (100 tok/s, MTP-3, EP8)
Agency
τ²-Bench88.280.374.3* / —87.480.2*80.3
BrowseComp51.651.441.5* / 60.652.047.445.4
BrowseComp (w/ Context Manager)69.067.660.2 / 74.967.562.058.3
BrowseComp-ZH66.965.062.3 / 62.3*66.647.8*51.2*
BrowseComp-ZH (w/ Context Manager)73.7— / —
GAIA (no file)84.575.1*75.6* / 75.9*61.9*64.3*78.2*
xbench-DeepSearch (2025.05)83.778.0*76.0* / 76.7*72.0*68.7*69.3*
xbench-DeepSearch (2025.10)56.355.7*— / 40+52.3*43.0*44.0*
ResearchRubrics65.355.8*56.2* / 59.5*62.0*60.2*54.3*
Reasoning
AIME 202597.393.194.5 / 96.195.783.094.1 (95.1*)
HMMT 2025 (Feb.)98.492.589.4 / 95.497.171.0*84.4 (95.4*)
HMMT 2025 (Nov.)94.090.289.2* / —93.574.3*91.0*
IMOAnswerBench85.478.378.6 / 81.882.060.4*80.9*
Coding
LiveCodeBench-V686.483.383.1 / 85.084.980.6 (81.6*)
SWE-bench Verified74.473.171.3 / 76.873.874.073.4
Terminal-Bench 2.051.046.435.7* / 50.841.047.938.5

备注

  1. “—” 表示分数未公开或未测试。
  2. “*” 表示原始分数无法获取或低于我们复现的结果,因此我们按照与 Step 3.5 Flash 相同的测试条件进行评估,以确保公平可比性。
  3. BrowseComp(带上下文管理器):当有效上下文长度超过预设阈值时,代理会重置上下文并重启代理循环。相比之下,Kimi K2.5 和 DeepSeek-V3.2 采用了“全丢弃”策略。
  4. 解码成本:估算方法类似于 arxiv.org/abs/2507.19427 中描述的方式,但精度更高。

4. 架构细节

Step 3.5 Flash 基于 稀疏混合专家(MoE) Transformer 架构构建,专为推理时的高吞吐量和低显存占用优化。

4.1 技术规格

组件规格
主干架构45 层 Transformer(4,096 隐藏维度)
上下文窗口256K
词表128,896 个 token
总参数量1968.1 亿(1960 亿主干 + 8.1 亿头部)
激活参数量约 110 亿(每 token 生成时)

4.2 混合专家(MoE)路由

与传统密集模型不同,Step 3.5 Flash 采用细粒度路由策略以最大化效率:

  • 细粒度专家:每层 288 个路由专家 + 1 个共享专家(始终激活)。
  • 稀疏激活:每个 token 仅选择 Top-8 专家。
  • 效果:模型保留 1960 亿参数规模的“记忆”,但以 110 亿参数模型的速度执行。

4.3 多 token 预测(MTP)

为提升推理速度,我们采用了专用的 MTP 头部模块,包含滑动窗口注意力机制和密集前馈网络(FFN)。该模块在单次前向传播中同时预测 4 个 token,显著加速推理且不降低质量。

5. 快速开始

您可以通过我们支持的提供商使用云API,在几分钟内开始使用Step 3.5 Flash。

5.1 获取API密钥

OpenRouterplatform.stepfun.ai注册并获取您的API密钥。

OpenRouter目前为Step 3.5 Flash提供免费试用。
提供商网站基础网址
OpenRouterhttps://openrouter.aihttps://openrouter.ai/api/v1
StepFunhttps://platform.stepfun.aihttps://api.stepfun.ai/v1

5.2 安装配置

安装标准的OpenAI SDK(兼容两个平台)。

pip install --upgrade "openai>=1.0"

注意:OpenRouter 支持多种 SDK。了解更多信息请点击此处

5.3 实现示例

本示例展示了如何与 Step 3.5 Flash 开始聊天。

from openai import OpenAI client = OpenAI( api_key="YOUR_API_KEY", base_url="https://api.stepfun.ai/v1",# or "https://openrouter.ai/api/v1"# Optional: OpenRouter headers for app rankings default_headers={"HTTP-Referer":"<YOUR_SITE_URL>","X-Title":"<YOUR_SITE_NAME>",}) completion = client.chat.completions.create( model="step-3.5-flash",# Use "stepfun/step-3.5-flash" for OpenRouter messages=[{"role":"system","content":"You are an AI chat assistant provided by StepFun. You are good at Chinese, English, and many other languages.",},{"role":"user","content":"Introduce StepFun's artificial intelligence capabilities."},],)print(completion.choices[0].message.content)

6. 本地部署

步骤3.5 Flash针对本地推理进行了优化,支持包括vLLM、SGLang、Hugging Face Transformers和llama.cpp在内的行业标准后端。

6.1 vLLM

我们推荐使用vLLM的最新nightly版本。

  1. 安装vLLM。
# via Dockerdocker pull vllm/vllm-openai:nightly # or via pip (nightly wheels) pip install -U vllm --pre \ --index-url https://pypi.org/simple \ --extra-index-url https://wheels.vllm.ai/nightly 
  1. 启动服务器。

注意:vLLM 目前尚不支持完整的 MTP3 功能。我们正在积极开发一个拉取请求以集成此功能,预计这将显著提升解码性能。

  • 针对 fp8 模型
vllm serve <MODEL_PATH_OR_HF_ID>\ --served-model-name step3p5-flash \ --tensor-parallel-size 8\ --enable-expert-parallel \ --disable-cascade-attn \ --reasoning-parser step3p5 \ --enable-auto-tool-choice \ --tool-call-parser step3p5 \ --hf-overrides '{"num_nextn_predict_layers": 1}'\ --speculative_config '{"method": "step3p5_mtp", "num_speculative_tokens": 1}'\ --trust-remote-code \ --quantization fp8 
  • 针对bf16模型
vllm serve <MODEL_PATH_OR_HF_ID>\ --served-model-name step3p5-flash \ --tensor-parallel-size 8\ --enable-expert-parallel \ --disable-cascade-attn \ --reasoning-parser step3p5 \ --enable-auto-tool-choice \ --tool-call-parser step3p5 \ --hf-overrides '{"num_nextn_predict_layers": 1}'\ --speculative_config '{"method": "step3p5_mtp", "num_speculative_tokens": 1}'\ --trust-remote-code 

你也可以参考 Step-3.5-Flash 配方。

6.2 SGLang

  1. 安装 SGLang。
# via Dockerdocker pull lmsysorg/sglang:dev-pr-18084 # or from source (pip) pip install"sglang[all] @ git+https://github.com/sgl-project/sglang.git"
  1. 启动服务器。
  • 针对bf16模型
sglang serve --model-path <MODEL_PATH_OR_HF_ID>\ --served-model-name step3p5-flash \ --tp-size 8\ --tool-call-parser step3p5 \ --reasoning-parser step3p5 \ --speculative-algorithm EAGLE \ --speculative-num-steps 3\ --speculative-eagle-topk 1\ --speculative-num-draft-tokens 4\ --enable-multi-layer-eagle \ --host 0.0.0.0 \ --port 8000
  • 对于fp8模型
sglang serve --model-path <MODEL_PATH_OR_HF_ID>\ --served-model-name step3p5-flash \ --tp-size 8\ --ep-size 8\ --tool-call-parser step3p5 \ --reasoning-parser step3p5 \ --speculative-algorithm EAGLE \ --speculative-num-steps 3\ --speculative-eagle-topk 1\ --speculative-num-draft-tokens 4\ --enable-multi-layer-eagle \ --host 0.0.0.0 \ --port 8000

6.3 Transformers(调试/验证)

使用此代码片段进行快速功能验证。如需高吞吐量服务,请使用vLLM或SGLang。

from transformers import AutoModelForCausalLM, AutoTokenizer MODEL_PATH ="<MODEL_PATH_OR_HF_ID>"# 1. Setup tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH) model = AutoModelForCausalLM.from_pretrained( MODEL_PATH, trust_remote_code=True, torch_dtype="auto", device_map="auto",)# 2. Prepare Input messages =[{"role":"user","content":"Explain the significance of the number 42."}] inputs = tokenizer.apply_chat_template( messages, tokenize=True, add_generation_prompt=True, return_dict=True, return_tensors="pt",).to(model.device)# 3. Generate generated_ids = model.generate(**inputs, max_new_tokens=128, do_sample=False) output_text = tokenizer.decode(generated_ids[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)print(output_text)

6.4 llama.cpp

系统需求
  • GGUF模型权重(int4量化版):111.5GB
  • 运行时开销:约7GB
  • 最低显存要求:120GB(例如Mac Studio、DGX-Spark、AMD Ryzen AI Max+ 395等设备)
  • 推荐配置:128GB统一内存
步骤
  1. 使用llama.cpp:
git clone [email protected]:stepfun-ai/Step-3.5-Flash.git cd Step-3.5-Flash/llama.cpp 
  1. 在Mac上构建llama.cpp
cmake -S . -B build-macos \ -DCMAKE_BUILD_TYPE=Release \ -DGGML_METAL=ON \ -DGGML_ACCELERATE=ON \ -DLLAMA_BUILD_EXAMPLES=ON \ -DLLAMA_BUILD_COMMON=ON \ -DGGML_LTO=ON cmake --build build-macos -j8 
  1. 在DGX-Spark上构建llama.cpp:
cmake -S . -B build-cuda \ -DCMAKE_BUILD_TYPE=Release \ -DGGML_CUDA=ON \ -DGGML_CUDA_GRAPHS=ON \ -DLLAMA_CURL=OFF \ -DLLAMA_BUILD_EXAMPLES=ON \ -DLLAMA_BUILD_COMMON=ON cmake --build build-cuda -j8 
  1. 在AMD Windows上构建llama.cpp
cmake -S . -B build-vulkan \ -DCMAKE_BUILD_TYPE=Release \ -DLLAMA_CURL=OFF \ -DGGML_OPENMP=ON \ -DGGML_VULKAN=ON cmake --build build-vulkan -j8 
  1. 使用 llama-cli 运行
./llama-cli -m step3.5_flash_Q4_K_S.gguf -c 16384 -b 2048 -ub 2048 -fa on --temp 1.0 -p "What's your name?"
  1. 使用llama-batched-bench测试性能:
./llama-batched-bench -m step3.5_flash_Q4_K_S.gguf -c 32768 -b 2048 -ub 2048 -npp 0,2048,8192,16384,32768 -ntg 128 -npl 1

7. 在代理平台使用Step 3.5 Flash

7.1 Claude Code与Codex平台

在大多数编程环境中,将Step 3.5 Flash添加到模型列表非常简单。以下是配置Claude Code和Codex使用Step 3.5 Flash的说明。

7.1.1 准备工作

如快速入门所述,请先在StepFun.ai或OpenRouter注册并获取API密钥。

7.1.2 环境配置

Claude Code和Codex依赖Node.js运行环境。建议安装Node.js版本>v20,可通过nvm工具进行安装。

Mac/Linux:

# Install nvm on Mac/Linux via curl:# Step 1curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.0/install.sh |bash# Copy the full commandexportNVM_DIR="$HOME/.nvm"[ -s "$NVM_DIR/nvm.sh"]&&\. "$NVM_DIR/nvm.sh"# This loads nvm[ -s "$NVM_DIR/bash_completion"]&&\. "$NVM_DIR/bash_completion"# Users in China can set up npm mirror config set registry https://registry.npmmirror.com # Step 2 nvm install v22 # Make sure Node.js is installednode --version npm --version 

Windows
您可以从 https://github.com/coreybutler/nvm-windows/releases 下载安装文件(nvm-setup.exe)。按照说明安装nvm。运行nvm命令以确保安装成功。

7.1.3 使用步骤 3.5 在Claude Code上刷机
  1. 安装Claude Code。
# install claude code via npmnpminstall -g @anthropic-ai/claude-code # test if the installation is successful claude --version 
  1. 配置Claude代码。

为适应Claude Code中的多样化工作流程,我们同时支持Anthropic风格OpenAI风格的API接口。

选项A:Anthropic API风格:

如需使用OpenRouter API,请参阅OpenRouter集成指南。

第一步:编辑Claude设置。更新~/.claude/settings.json.

您只需修改下方显示的字段。其余部分保持不变。
{"env":{"ANTHROPIC_API_KEY":"API_KEY_from_StepFun","ANTHROPIC_BASE_URL":"https://api.stepfun.ai/"},"model":"step-3.5-flash"}

步骤2:启动Claude代码

保存文件后,启动Claude代码。运行/status命令确认模型和基础URL。

❯ /status ───────────────────────────────────────────────────────────────────────────────── Settings: Status Config Usage (←/→ or tab to cycle) Version: 2.1.1 Session name: /rename to add a name Session ID: 676dae61-259d-4eef-8c2f-0f1641600553 cwd: /Users/step-test/ Auth token: none API key: ANTHROPIC_API_KEY Anthropic base URL: https://api.stepfun.ai/ Model: step-3.5-flash Setting sources: User settings 

选项B:OpenAI API风格

注:此处的OpenAI API风格指chat/completions/格式。
推荐使用claude-code-router。详情参见https://github.com/musistudio/claude-code-router

安装Claude Code后,请安装claude-code-router

# install ccr via npmnpminstall -g @musistudio/claude-code-router # validate it is installed ccr -v 

将以下配置添加到 ~/.claude-code-router/config.json 中。

{"PORT":3456,"Providers":[{"name":"stepfun-api","api_base_url":"https://api.stepfun.com/v1/chat/completions","api_key":"StepFun_API_KEY","models":["step-3.5-flash"],"transformer":{"step-3.5-flash":{"use":["OpenAI"]}}}],"Router":{"default":"stepfun-api,step-3.5-flash","background":"stepfun-api,step-3.5-flash","think":"stepfun-api,step-3.5-flash","longContext":"stepfun-api,step-3.5-flash","webSearch":"stepfun-api,step-3.5-flash"}}

您现在可以启动Claude代码:

# Start Claude ccr code # restart ccr if configs are changed ccr restart 
7.1.4 使用步骤3.5 在Codex上刷机
  1. 安装Codex
# Install codex via npmnpminstall -g @openai/codex # Test if it is installed codex --version 
  1. 配置 Codex
    将以下设置添加到 ~/.codex/config.toml 中,其余设置保持不变。
model="step-3.5-flash" model_provider ="stepfun-chat" preferred_auth_method ="apikey" # configure the provider [model_providers.stepfun-chat] name ="OpenAI using response" base_url ="https://api.stepfun.com/v1" env_key ="OPENAI_API_KEY" wire_api ="chat" query_params ={}

对于Codex,wire_api仅支持chat模式。如果使用responses模式,需要切换为chat模式。同时请将model_provider更改为新配置的stepfun-chat

完成配置后,请在新终端窗口运行codex以启动Codex。执行/status命令可检查配置状态。

/status 📂 Workspace • Path: /Users/step-test/ • Approval Mode: on-request • Sandbox: workspace-write • AGENTS files: (none) 🧠 Model • Name: step-3.5-flash • Provider: Stepfun-chat 💻 Client • CLI Version: 0.40.0 
7.1.5 使用步骤3.5 Flash版进行深度研究(Step-DeepResearch)
  1. 参考以下环境设置指南,将MODEL_NAME配置为Step-3.5-Flash环境设置链接

8. 已知问题与未来方向

  1. 令牌效率:Step 3.5 Flash实现了前沿水平的智能体能力,但目前需要比Gemini 3.0 Pro更长的生成轨迹才能达到相当的质量。
  2. 高效通用精通:我们的目标是统一通用模型的多样性和深度领域专业知识。为了实现这一目标,我们正在推进策略蒸馏的变体方法,使模型能够以更高的样本效率内化专家行为。
  3. 强化学习应用于更多智能体任务:虽然Step 3.5 Flash在学术智能体基准测试中表现出竞争力,但智能体AI的下一个前沿需要将强化学习应用于专业工作、工程和研究中的复杂专家级任务。
  4. 操作范围与限制:Step 3.5 Flash专为编码和工作任务优化,但在分布变化时稳定性可能降低。这种情况通常出现在高度专业化领域或长期多轮对话中,模型可能出现重复推理、混合语言输出或时间和身份认知不一致的问题。

9. 共同开发未来

我们将发展路线图视为一份动态文档,根据实际使用情况和开发者反馈持续演进。
在通过扩展通用模型能力塑造AGI未来的过程中,我们希望确保解决的是正确的问题。我们邀请您加入这一持续的反馈循环——您的见解将直接影响我们的优先级。

  • 参与讨论:我们的Discord社区是构思未来架构、提议新功能并获取早期访问更新的主要平台 🚀
  • 反馈问题:遇到限制?您可以在GitHub提交问题,或直接在Discord支持频道中标记。

许可证

本项目采用Apache 2.0许可证开源。

Read more

Cursor完全卸载与重装指南:go-cursor-help辅助工具

Cursor完全卸载与重装指南:go-cursor-help辅助工具 【免费下载链接】go-cursor-help解决Cursor在免费订阅期间出现以下提示的问题: You've reached your trial request limit. / Too many free trial accounts used on this machine. Please upgrade to pro. We have this limit in place to prevent abuse. Please let us know if you believe this is a mistake. 项目地址: https://gitcode.com/GitHub_

By Ne0inhk
2025年PostgreSQL 详细安装教程(windows)

2025年PostgreSQL 详细安装教程(windows)

前言 PostgreSQL 是一个功能强大的开源关系型数据库管理系统(ORDBMS),以下是对它的全面介绍: 基本概况 * 名称:通常简称为 "Postgres" * 类型:对象-关系型数据库管理系统 * 许可:开源,采用类MIT许可证 * 首次发布:1996年(起源于1986年的POSTGRES项目) * 最新版本:PostgreSQL 16(截至2023年9月发布) 核心特性 1. 标准兼容性 * 完全符合ACID(原子性、一致性、隔离性、持久性) * 高度兼容SQL标准 2. 高级功能 * 复杂查询 * 外键 * 触发器 * 可更新视图 * 事务完整性 * 多版本并发控制(MVCC) 3. 扩展性 * 支持自定义数据类型 * 自定义函数 * 使用不同编程语言编写代码(如PL/pgSQL, PL/Python,

By Ne0inhk
在vsCode中使用node.js调试js代码时报错3221225477

在vsCode中使用node.js调试js代码时报错3221225477

我们在第一次使用node.js时,可能会遇到版本不兼容的问题,在使用时就会报错。推荐下载nodejs使用nvm下载 Nvm下载  选择nvm-setup.zip进行下载,下载好了后,打卡按照步骤点击下载(环境变量会自动配置,包括后面nodejs配置环境),下载完成后按win+r输入cmd 在命令行界面输入 nvm list available 查看可下载的nodejs版本 推荐下载18.20.4版本的,大部分都兼容,在命令行界面输入 nvm install 18.20.4  同样你可以在nvm中下载更多版本的 nvm use 18.20.4 使用use后面跟上你想切换的版本就可以切换使用的nodejs版本了 这样就解决了在使用vscode中nodejs会报3221225477错的问题了

By Ne0inhk
小白必看:MoE 架构详解(大模型入门指南),一篇搞定!

小白必看:MoE 架构详解(大模型入门指南),一篇搞定!

一、概念解读 MoE,即混合专家模型(Mixture of Experts),它的核心概念可以用 “术业有专攻” 来简单概括。想象一下,你要解决一系列复杂的问题,有一个全能型的智者,他什么都懂,但当问题数量众多且繁杂时,他处理起来可能会有些吃力,效率也不高。而 MoE 架构就像是组建了一个专家团队,每个专家都擅长某一特定领域,当问题出现时,能够迅速找到对应的专家来解决,大大提高了解决问题的效率。 MoE并非把整个网络应用于每一个输入,而是去学习一种计算成本较低的映射函数,通过这个函数来判断网络中的哪些部分(也就是哪些专家)能够最高效地处理给定的输入。此外,MoE模型中还配备了一个路由器,它的作用是有选择地激活完成给定任务所需要的特定专家,而不是针对每一项任务都激活整个神经网络。 混合专家(MoE)模型的专家(Expert)是什么?专家(Expert)是训练好的子网络(神经网络或层),通常是一个独立的前馈神经网络(FFNN),也可以是更复杂的网络结构。 MoE模型将一个复杂的任务拆分成多个子任务,每个子任务都交给一个专门的“专家”来处理。这些专家各自拥有独特的专长,

By Ne0inhk