【全网最全的的本地部署Code Agent攻略参考】跃阶星辰AI开源Step-3.5-Flash

【全网最全的的本地部署Code Agent攻略参考】跃阶星辰AI开源Step-3.5-Flash

1. 简介

Step 3.5 Flash访问官网)是我们目前最强大的开源基础模型,专为提供前沿推理与智能体能力而设计,同时具备卓越的效率。基于稀疏混合专家(MoE)架构,它每处理一个token仅激活1960亿参数中的110亿。这种"智能密度"使其推理深度可比肩顶级闭源模型,同时保持实时交互所需的敏捷性。

2. 核心能力

  • 高速深度推理:聊天机器人擅长阅读,而智能体必须快速推理。通过三路多token预测(MTP-3)技术,Step 3.5 Flash在典型使用场景中实现100-300 tok/s的生成吞吐量(单流编码任务峰值达350 tok/s),能即时响应复杂的多步推理链条。
  • 编码与智能体的强力引擎:Step 3.5 Flash专为智能体任务打造,集成可扩展的强化学习框架驱动持续自我进化。其SWE-bench Verified通过率74.4%Terminal-Bench 2.0通过率51.0%,证明其能以稳定性能处理复杂长周期任务。
  • 高效长上下文:模型采用3:1滑动窗口注意力(SWA)比例,支持经济高效的256K上下文窗口——每层全注意力层搭配三层SWA层。这种混合方案确保海量数据或长代码库场景下的稳定表现,同时显著降低标准长上下文模型常见的计算开销。
  • 便捷本地部署:Step 3.5 Flash针对易用性优化,将顶级智能带入本地环境。可在高端消费级硬件(如Mac Studio M4 Max、NVIDIA DGX Spark)上安全运行,在保障数据隐私的同时不牺牲性能。

3. 性能表现

Step 3.5 Flash在保持开放与高效的同时,实现了与领先闭源系统同等的性能。

在这里插入图片描述

Step 3.5 Flash在推理编程代理能力方面的性能表现。开源模型(左侧)按其总参数量排序,顶级专有模型展示在右侧。xbench-DeepSearch分数均引自官方出版物以确保一致性。阴影条代表Step 3.5 Flash采用并行思维技术后的增强性能。

详细基准测试

BenchmarkStep 3.5 FlashDeepSeek V3.2Kimi K2 Thinking / K2.5GLM-4.7MiniMax M2.1MiMo-V2 Flash
# Activated Params11B37B32B32B10B15B
# Total Params (MoE)196B671B1T355B230B309B
Est. decoding cost (@ 128K context, Hopper GPU**)1.0x (100 tok/s, MTP-3, EP8)6.0x (33 tok/s, MTP-1, EP32)18.9x (33 tok/s, no MTP, EP32)18.9x (100 tok/s, MTP-3, EP8)3.9x (100 tok/s, MTP-3, EP8)1.2x (100 tok/s, MTP-3, EP8)
Agency
τ²-Bench88.280.374.3* / —87.480.2*80.3
BrowseComp51.651.441.5* / 60.652.047.445.4
BrowseComp (w/ Context Manager)69.067.660.2 / 74.967.562.058.3
BrowseComp-ZH66.965.062.3 / 62.3*66.647.8*51.2*
BrowseComp-ZH (w/ Context Manager)73.7— / —
GAIA (no file)84.575.1*75.6* / 75.9*61.9*64.3*78.2*
xbench-DeepSearch (2025.05)83.778.0*76.0* / 76.7*72.0*68.7*69.3*
xbench-DeepSearch (2025.10)56.355.7*— / 40+52.3*43.0*44.0*
ResearchRubrics65.355.8*56.2* / 59.5*62.0*60.2*54.3*
Reasoning
AIME 202597.393.194.5 / 96.195.783.094.1 (95.1*)
HMMT 2025 (Feb.)98.492.589.4 / 95.497.171.0*84.4 (95.4*)
HMMT 2025 (Nov.)94.090.289.2* / —93.574.3*91.0*
IMOAnswerBench85.478.378.6 / 81.882.060.4*80.9*
Coding
LiveCodeBench-V686.483.383.1 / 85.084.980.6 (81.6*)
SWE-bench Verified74.473.171.3 / 76.873.874.073.4
Terminal-Bench 2.051.046.435.7* / 50.841.047.938.5

备注

  1. “—” 表示分数未公开或未测试。
  2. “*” 表示原始分数无法获取或低于我们复现的结果,因此我们按照与 Step 3.5 Flash 相同的测试条件进行评估,以确保公平可比性。
  3. BrowseComp(带上下文管理器):当有效上下文长度超过预设阈值时,代理会重置上下文并重启代理循环。相比之下,Kimi K2.5 和 DeepSeek-V3.2 采用了“全丢弃”策略。
  4. 解码成本:估算方法类似于 arxiv.org/abs/2507.19427 中描述的方式,但精度更高。

4. 架构细节

Step 3.5 Flash 基于 稀疏混合专家(MoE) Transformer 架构构建,专为推理时的高吞吐量和低显存占用优化。

4.1 技术规格

组件规格
主干架构45 层 Transformer(4,096 隐藏维度)
上下文窗口256K
词表128,896 个 token
总参数量1968.1 亿(1960 亿主干 + 8.1 亿头部)
激活参数量约 110 亿(每 token 生成时)

4.2 混合专家(MoE)路由

与传统密集模型不同,Step 3.5 Flash 采用细粒度路由策略以最大化效率:

  • 细粒度专家:每层 288 个路由专家 + 1 个共享专家(始终激活)。
  • 稀疏激活:每个 token 仅选择 Top-8 专家。
  • 效果:模型保留 1960 亿参数规模的“记忆”,但以 110 亿参数模型的速度执行。

4.3 多 token 预测(MTP)

为提升推理速度,我们采用了专用的 MTP 头部模块,包含滑动窗口注意力机制和密集前馈网络(FFN)。该模块在单次前向传播中同时预测 4 个 token,显著加速推理且不降低质量。

5. 快速开始

您可以通过我们支持的提供商使用云API,在几分钟内开始使用Step 3.5 Flash。

5.1 获取API密钥

OpenRouterplatform.stepfun.ai注册并获取您的API密钥。

OpenRouter目前为Step 3.5 Flash提供免费试用。
提供商网站基础网址
OpenRouterhttps://openrouter.aihttps://openrouter.ai/api/v1
StepFunhttps://platform.stepfun.aihttps://api.stepfun.ai/v1

5.2 安装配置

安装标准的OpenAI SDK(兼容两个平台)。

pip install --upgrade "openai>=1.0"

注意:OpenRouter 支持多种 SDK。了解更多信息请点击此处

5.3 实现示例

本示例展示了如何与 Step 3.5 Flash 开始聊天。

from openai import OpenAI client = OpenAI( api_key="YOUR_API_KEY", base_url="https://api.stepfun.ai/v1",# or "https://openrouter.ai/api/v1"# Optional: OpenRouter headers for app rankings default_headers={"HTTP-Referer":"<YOUR_SITE_URL>","X-Title":"<YOUR_SITE_NAME>",}) completion = client.chat.completions.create( model="step-3.5-flash",# Use "stepfun/step-3.5-flash" for OpenRouter messages=[{"role":"system","content":"You are an AI chat assistant provided by StepFun. You are good at Chinese, English, and many other languages.",},{"role":"user","content":"Introduce StepFun's artificial intelligence capabilities."},],)print(completion.choices[0].message.content)

6. 本地部署

步骤3.5 Flash针对本地推理进行了优化,支持包括vLLM、SGLang、Hugging Face Transformers和llama.cpp在内的行业标准后端。

6.1 vLLM

我们推荐使用vLLM的最新nightly版本。

  1. 安装vLLM。
# via Dockerdocker pull vllm/vllm-openai:nightly # or via pip (nightly wheels) pip install -U vllm --pre \ --index-url https://pypi.org/simple \ --extra-index-url https://wheels.vllm.ai/nightly 
  1. 启动服务器。

注意:vLLM 目前尚不支持完整的 MTP3 功能。我们正在积极开发一个拉取请求以集成此功能,预计这将显著提升解码性能。

  • 针对 fp8 模型
vllm serve <MODEL_PATH_OR_HF_ID>\ --served-model-name step3p5-flash \ --tensor-parallel-size 8\ --enable-expert-parallel \ --disable-cascade-attn \ --reasoning-parser step3p5 \ --enable-auto-tool-choice \ --tool-call-parser step3p5 \ --hf-overrides '{"num_nextn_predict_layers": 1}'\ --speculative_config '{"method": "step3p5_mtp", "num_speculative_tokens": 1}'\ --trust-remote-code \ --quantization fp8 
  • 针对bf16模型
vllm serve <MODEL_PATH_OR_HF_ID>\ --served-model-name step3p5-flash \ --tensor-parallel-size 8\ --enable-expert-parallel \ --disable-cascade-attn \ --reasoning-parser step3p5 \ --enable-auto-tool-choice \ --tool-call-parser step3p5 \ --hf-overrides '{"num_nextn_predict_layers": 1}'\ --speculative_config '{"method": "step3p5_mtp", "num_speculative_tokens": 1}'\ --trust-remote-code 

你也可以参考 Step-3.5-Flash 配方。

6.2 SGLang

  1. 安装 SGLang。
# via Dockerdocker pull lmsysorg/sglang:dev-pr-18084 # or from source (pip) pip install"sglang[all] @ git+https://github.com/sgl-project/sglang.git"
  1. 启动服务器。
  • 针对bf16模型
sglang serve --model-path <MODEL_PATH_OR_HF_ID>\ --served-model-name step3p5-flash \ --tp-size 8\ --tool-call-parser step3p5 \ --reasoning-parser step3p5 \ --speculative-algorithm EAGLE \ --speculative-num-steps 3\ --speculative-eagle-topk 1\ --speculative-num-draft-tokens 4\ --enable-multi-layer-eagle \ --host 0.0.0.0 \ --port 8000
  • 对于fp8模型
sglang serve --model-path <MODEL_PATH_OR_HF_ID>\ --served-model-name step3p5-flash \ --tp-size 8\ --ep-size 8\ --tool-call-parser step3p5 \ --reasoning-parser step3p5 \ --speculative-algorithm EAGLE \ --speculative-num-steps 3\ --speculative-eagle-topk 1\ --speculative-num-draft-tokens 4\ --enable-multi-layer-eagle \ --host 0.0.0.0 \ --port 8000

6.3 Transformers(调试/验证)

使用此代码片段进行快速功能验证。如需高吞吐量服务,请使用vLLM或SGLang。

from transformers import AutoModelForCausalLM, AutoTokenizer MODEL_PATH ="<MODEL_PATH_OR_HF_ID>"# 1. Setup tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH) model = AutoModelForCausalLM.from_pretrained( MODEL_PATH, trust_remote_code=True, torch_dtype="auto", device_map="auto",)# 2. Prepare Input messages =[{"role":"user","content":"Explain the significance of the number 42."}] inputs = tokenizer.apply_chat_template( messages, tokenize=True, add_generation_prompt=True, return_dict=True, return_tensors="pt",).to(model.device)# 3. Generate generated_ids = model.generate(**inputs, max_new_tokens=128, do_sample=False) output_text = tokenizer.decode(generated_ids[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)print(output_text)

6.4 llama.cpp

系统需求
  • GGUF模型权重(int4量化版):111.5GB
  • 运行时开销:约7GB
  • 最低显存要求:120GB(例如Mac Studio、DGX-Spark、AMD Ryzen AI Max+ 395等设备)
  • 推荐配置:128GB统一内存
步骤
  1. 使用llama.cpp:
git clone [email protected]:stepfun-ai/Step-3.5-Flash.git cd Step-3.5-Flash/llama.cpp 
  1. 在Mac上构建llama.cpp
cmake -S . -B build-macos \ -DCMAKE_BUILD_TYPE=Release \ -DGGML_METAL=ON \ -DGGML_ACCELERATE=ON \ -DLLAMA_BUILD_EXAMPLES=ON \ -DLLAMA_BUILD_COMMON=ON \ -DGGML_LTO=ON cmake --build build-macos -j8 
  1. 在DGX-Spark上构建llama.cpp:
cmake -S . -B build-cuda \ -DCMAKE_BUILD_TYPE=Release \ -DGGML_CUDA=ON \ -DGGML_CUDA_GRAPHS=ON \ -DLLAMA_CURL=OFF \ -DLLAMA_BUILD_EXAMPLES=ON \ -DLLAMA_BUILD_COMMON=ON cmake --build build-cuda -j8 
  1. 在AMD Windows上构建llama.cpp
cmake -S . -B build-vulkan \ -DCMAKE_BUILD_TYPE=Release \ -DLLAMA_CURL=OFF \ -DGGML_OPENMP=ON \ -DGGML_VULKAN=ON cmake --build build-vulkan -j8 
  1. 使用 llama-cli 运行
./llama-cli -m step3.5_flash_Q4_K_S.gguf -c 16384 -b 2048 -ub 2048 -fa on --temp 1.0 -p "What's your name?"
  1. 使用llama-batched-bench测试性能:
./llama-batched-bench -m step3.5_flash_Q4_K_S.gguf -c 32768 -b 2048 -ub 2048 -npp 0,2048,8192,16384,32768 -ntg 128 -npl 1

7. 在代理平台使用Step 3.5 Flash

7.1 Claude Code与Codex平台

在大多数编程环境中,将Step 3.5 Flash添加到模型列表非常简单。以下是配置Claude Code和Codex使用Step 3.5 Flash的说明。

7.1.1 准备工作

如快速入门所述,请先在StepFun.ai或OpenRouter注册并获取API密钥。

7.1.2 环境配置

Claude Code和Codex依赖Node.js运行环境。建议安装Node.js版本>v20,可通过nvm工具进行安装。

Mac/Linux:

# Install nvm on Mac/Linux via curl:# Step 1curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.0/install.sh |bash# Copy the full commandexportNVM_DIR="$HOME/.nvm"[ -s "$NVM_DIR/nvm.sh"]&&\. "$NVM_DIR/nvm.sh"# This loads nvm[ -s "$NVM_DIR/bash_completion"]&&\. "$NVM_DIR/bash_completion"# Users in China can set up npm mirror config set registry https://registry.npmmirror.com # Step 2 nvm install v22 # Make sure Node.js is installednode --version npm --version 

Windows
您可以从 https://github.com/coreybutler/nvm-windows/releases 下载安装文件(nvm-setup.exe)。按照说明安装nvm。运行nvm命令以确保安装成功。

7.1.3 使用步骤 3.5 在Claude Code上刷机
  1. 安装Claude Code。
# install claude code via npmnpminstall -g @anthropic-ai/claude-code # test if the installation is successful claude --version 
  1. 配置Claude代码。

为适应Claude Code中的多样化工作流程,我们同时支持Anthropic风格OpenAI风格的API接口。

选项A:Anthropic API风格:

如需使用OpenRouter API,请参阅OpenRouter集成指南。

第一步:编辑Claude设置。更新~/.claude/settings.json.

您只需修改下方显示的字段。其余部分保持不变。
{"env":{"ANTHROPIC_API_KEY":"API_KEY_from_StepFun","ANTHROPIC_BASE_URL":"https://api.stepfun.ai/"},"model":"step-3.5-flash"}

步骤2:启动Claude代码

保存文件后,启动Claude代码。运行/status命令确认模型和基础URL。

❯ /status ───────────────────────────────────────────────────────────────────────────────── Settings: Status Config Usage (←/→ or tab to cycle) Version: 2.1.1 Session name: /rename to add a name Session ID: 676dae61-259d-4eef-8c2f-0f1641600553 cwd: /Users/step-test/ Auth token: none API key: ANTHROPIC_API_KEY Anthropic base URL: https://api.stepfun.ai/ Model: step-3.5-flash Setting sources: User settings 

选项B:OpenAI API风格

注:此处的OpenAI API风格指chat/completions/格式。
推荐使用claude-code-router。详情参见https://github.com/musistudio/claude-code-router

安装Claude Code后,请安装claude-code-router

# install ccr via npmnpminstall -g @musistudio/claude-code-router # validate it is installed ccr -v 

将以下配置添加到 ~/.claude-code-router/config.json 中。

{"PORT":3456,"Providers":[{"name":"stepfun-api","api_base_url":"https://api.stepfun.com/v1/chat/completions","api_key":"StepFun_API_KEY","models":["step-3.5-flash"],"transformer":{"step-3.5-flash":{"use":["OpenAI"]}}}],"Router":{"default":"stepfun-api,step-3.5-flash","background":"stepfun-api,step-3.5-flash","think":"stepfun-api,step-3.5-flash","longContext":"stepfun-api,step-3.5-flash","webSearch":"stepfun-api,step-3.5-flash"}}

您现在可以启动Claude代码:

# Start Claude ccr code # restart ccr if configs are changed ccr restart 
7.1.4 使用步骤3.5 在Codex上刷机
  1. 安装Codex
# Install codex via npmnpminstall -g @openai/codex # Test if it is installed codex --version 
  1. 配置 Codex
    将以下设置添加到 ~/.codex/config.toml 中,其余设置保持不变。
model="step-3.5-flash" model_provider ="stepfun-chat" preferred_auth_method ="apikey" # configure the provider [model_providers.stepfun-chat] name ="OpenAI using response" base_url ="https://api.stepfun.com/v1" env_key ="OPENAI_API_KEY" wire_api ="chat" query_params ={}

对于Codex,wire_api仅支持chat模式。如果使用responses模式,需要切换为chat模式。同时请将model_provider更改为新配置的stepfun-chat

完成配置后,请在新终端窗口运行codex以启动Codex。执行/status命令可检查配置状态。

/status 📂 Workspace • Path: /Users/step-test/ • Approval Mode: on-request • Sandbox: workspace-write • AGENTS files: (none) 🧠 Model • Name: step-3.5-flash • Provider: Stepfun-chat 💻 Client • CLI Version: 0.40.0 
7.1.5 使用步骤3.5 Flash版进行深度研究(Step-DeepResearch)
  1. 参考以下环境设置指南,将MODEL_NAME配置为Step-3.5-Flash环境设置链接

8. 已知问题与未来方向

  1. 令牌效率:Step 3.5 Flash实现了前沿水平的智能体能力,但目前需要比Gemini 3.0 Pro更长的生成轨迹才能达到相当的质量。
  2. 高效通用精通:我们的目标是统一通用模型的多样性和深度领域专业知识。为了实现这一目标,我们正在推进策略蒸馏的变体方法,使模型能够以更高的样本效率内化专家行为。
  3. 强化学习应用于更多智能体任务:虽然Step 3.5 Flash在学术智能体基准测试中表现出竞争力,但智能体AI的下一个前沿需要将强化学习应用于专业工作、工程和研究中的复杂专家级任务。
  4. 操作范围与限制:Step 3.5 Flash专为编码和工作任务优化,但在分布变化时稳定性可能降低。这种情况通常出现在高度专业化领域或长期多轮对话中,模型可能出现重复推理、混合语言输出或时间和身份认知不一致的问题。

9. 共同开发未来

我们将发展路线图视为一份动态文档,根据实际使用情况和开发者反馈持续演进。
在通过扩展通用模型能力塑造AGI未来的过程中,我们希望确保解决的是正确的问题。我们邀请您加入这一持续的反馈循环——您的见解将直接影响我们的优先级。

  • 参与讨论:我们的Discord社区是构思未来架构、提议新功能并获取早期访问更新的主要平台 🚀
  • 反馈问题:遇到限制?您可以在GitHub提交问题,或直接在Discord支持频道中标记。

许可证

本项目采用Apache 2.0许可证开源。

Read more

基于django+vue的时尚穿搭社区(商城)(前后端分离)

基于django+vue的时尚穿搭社区(商城)(前后端分离)

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、ZEEKLOG博客专家、阿里云专家博主、公司架构师、全网粉丝5万+、专注Java技术领域和毕业设计项目实战,欢迎高校老师\讲师\同行交流合作 主要内容:毕业设计(Javaweb项目|小程序|Python|HTML|数据可视化|SSM|SpringBoot|Vue|Jsp|PHP等)、简历模板、学习资料、面试题库、技术咨询 文末联系获取 感兴趣可以先收藏起来,以防走丢,有任何选题、文档编写、代码问题也可以咨询我们 项目介绍:  本系统为最新原创项目,采用前后端分离,项目代码工整,结构清晰,适合选题:时尚穿搭、穿搭社区、穿搭、时尚商城、商城、前后端分离类其他穿搭话题等。系统采用django+vue整合开发,前端主要使用了vue、项目后端主要使用了django。

By Ne0inhk
Flutter 组件 vietqr_gen 适配鸿蒙 HarmonyOS 实战:标准聚合支付,构建金融级二维码生成与跨境支付治理架构

Flutter 组件 vietqr_gen 适配鸿蒙 HarmonyOS 实战:标准聚合支付,构建金融级二维码生成与跨境支付治理架构

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net Flutter 组件 vietqr_gen 适配鸿蒙 HarmonyOS 实战:标准聚合支付,构建金融级二维码生成与跨境支付治理架构 前言 在鸿蒙(OpenHarmony)生态迈向全场景商业化、涉及跨境数字化金融、智能收银终端及分布式聚合支付的背景下,如何生成符合国际 EMVCo 标准且具备高可靠校验机制的支付二维码,已成为决定金融类应用“交易确定性”的核心环节。在鸿蒙设备这类强调内核级安全防护与高精度金融计算的环境下,如果应用依然依赖简单的字符串拼接来构造具有复杂 TLV(Tag-Length-Value)结构的支付密令,由于由于字节统计误差或 CRC 校验逻辑漏洞,极易由于由于扫码解析失败导致资金结算链路的中断。 我们需要一种能够自动化 TLV 封装、支持标准银行目录映射且具备高精度 CRC16 校验的金融级生成方案。 vietqr_gen 为 Flutter 开发者引入了标准化的聚合支付二维码生成协议。它不仅支持对收款账号、金额及备注的结构化打包,更

By Ne0inhk

sftpgo汉化处理

问题描述 官方提供的sftpgo webui的默认语言为英文, 没有待中文的语言包。实际上中文语言包已经翻译完毕,本文介绍一种在不重新编译的情况下为sftpgo的webui增加中文包的方法。 准备 1. (已完成安装的跳过) 安装sftpgo的官方安装包, 这里例子中使用的是: sftpgo_v2.6.6_windows_portable.zip 具体下载地址: https://github.com/drakkan/sftpgo/releases 2. 下载已经汉化的中文资源,其实际上是一个json文件, 可以参考这个:https://gitee.com/chenbichao/sftpgo-ryan/blob/master/static/locales/zh/translation.json 3. sftpgo服务已可以正常使用 原理 webui的前端资源都已经在sftpgo的可执行文件的同级目录下存在,分别是template文件夹下的页面展示信息 和 static文件夹下的资源。通过直接修改template中的js代码可以增加页面中的语言选项,并在用户点击是自动下

By Ne0inhk
Flutter 组件 saropa_lints 适配鸿蒙 HarmonyOS 实战:代码质量守卫,构建性能合规性检查与自定义分析规约治理架构

Flutter 组件 saropa_lints 适配鸿蒙 HarmonyOS 实战:代码质量守卫,构建性能合规性检查与自定义分析规约治理架构

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.ZEEKLOG.net Flutter 组件 saropa_lints 适配鸿蒙 HarmonyOS 实战:代码质量守卫,构建性能合规性检查与自定义分析规约治理架构 前言 在鸿蒙(OpenHarmony)生态迈向大规模工业化协同、涉及超大型项目敏捷迭代、海量模块解耦及严苛 AOT 性能交付标准的背景下,如何实现一套能够自动拦截低质量代码、保障跨团队开发风格绝对统一且符合鸿蒙性能极致要求的“静态扫描中心”,已成为决定应用长期可维护性与研发效能感的关键。在鸿蒙设备这类强调 AOT 静态优化与严格类型安全的环境下,如果应用代码中充斥着滥用的 dynamic 调用或循环引用,由于由于编译期的类型擦除与运行时的屏障开销,极易由于由于“代码腐化”导致鸿蒙应用在长期运行后发生不可预知的内存泄露。 我们需要一种能够强制约束研发纪律、支持自定义规则扩展且具备“一站式”合规性判定的 Linter 方案。 saropa_lints 为 Flutter 开发者引入了“质量铁律”范式。它不是简单的代码检查

By Ne0inhk