跃阶星辰 AI 开源 Step-3.5-Flash 本地部署指南 | 极客日志

PythonNode.jsAI算法

跃阶星辰 AI 开源 Step-3.5-Flash 本地部署指南

介绍跃阶星辰 AI 开源模型 Step-3.5-Flash，涵盖其核心能力、性能基准测试及架构细节。提供基于 vLLM、SGLang、Transformers 及 llama.cpp 的本地部署方案，并包含 API 调用示例及在 Claude Code、Codex 等平台的集成配置方法。

ApiHolic发布于 2026/4/5更新于 2026/7/2557 浏览

1. 简介

Step 3.5 Flash（访问官网）是我们目前最强大的开源基础模型，专为提供前沿推理与智能体能力而设计，同时具备卓越的效率。基于稀疏混合专家（MoE）架构，它每处理一个 token 仅激活 1960 亿参数中的 110 亿。这种'智能密度'使其推理深度可比肩顶级闭源模型，同时保持实时交互所需的敏捷性。

2. 核心能力

高速深度推理：聊天机器人擅长阅读，而智能体必须快速推理。通过三路多 token 预测（MTP-3）技术，Step 3.5 Flash 在典型使用场景中实现100-300 tok/s的生成吞吐量（单流编码任务峰值达350 tok/s），能即时响应复杂的多步推理链条。
编码与智能体的强力引擎：Step 3.5 Flash 专为智能体任务打造，集成可扩展的强化学习框架驱动持续自我进化。其SWE-bench Verified 通过率 74.4%，Terminal-Bench 2.0 通过率 51.0%，证明其能以稳定性能处理复杂长周期任务。
高效长上下文：模型采用 3:1 滑动窗口注意力（SWA）比例，支持经济高效的256K 上下文窗口——每层全注意力层搭配三层 SWA 层。这种混合方案确保海量数据或长代码库场景下的稳定表现，同时显著降低标准长上下文模型常见的计算开销。
便捷本地部署：Step 3.5 Flash 针对易用性优化，将顶级智能带入本地环境。可在高端消费级硬件（如 Mac Studio M4 Max、NVIDIA DGX Spark）上安全运行，在保障数据隐私的同时不牺牲性能。

3. 性能表现

Step 3.5 Flash 在保持开放与高效的同时，实现了与领先闭源系统同等的性能。

在这里插入图片描述

Step 3.5 Flash 在推理、编程和代理能力方面的性能表现。开源模型（左侧）按其总参数量排序，顶级专有模型展示在右侧。xbench-DeepSearch 分数均引自官方出版物以确保一致性。阴影条代表 Step 3.5 Flash 采用并行思维技术后的增强性能。

详细基准测试

Benchmark	Step 3.5 Flash	DeepSeek V3.2	Kimi K2 Thinking / K2.5	GLM-4.7	MiniMax M2.1	MiMo-V2 Flash
# Activated Params	11B	37B	32B	32B	10B	15B
# Total Params (MoE)	196B

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

组件	规格
主干架构	45 层 Transformer（4,096 隐藏维度）
上下文窗口	256K
词表	128,896 个 token
总参数量	1968.1 亿（1960 亿主干 + 8.1 亿头部）
激活参数量	约 110 亿（每 token 生成时）

提供商	网站	基础网址
OpenRouter	https://openrouter.ai	https://openrouter.ai/api/v1
StepFun	https://platform.stepfun.ai	https://api.stepfun.ai/v1

pip install --upgrade "openai>=1.0"

from openai import OpenAI
client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://api.stepfun.ai/v1",# or "https://openrouter.ai/api/v1"
    # Optional: OpenRouter headers for app rankings
    default_headers={"HTTP-Referer":"<YOUR_SITE_URL>","X-Title":"<YOUR_SITE_NAME>",}
)
completion = client.chat.completions.create(
    model="step-3.5-flash",# Use "stepfun/step-3.5-flash" for OpenRouter
    messages=[{"role":"system","content":"You are an AI chat assistant provided by StepFun. You are good at Chinese, English, and many other languages."},{"role":"user","content":"Introduce StepFun's artificial intelligence capabilities."},],
)
print(completion.choices[0].message.content)

# via Docker
docker pull vllm/vllm-openai:nightly 
# or via pip (nightly wheels)
pip install -U vllm --pre \
 --index-url https://pypi.org/simple \
 --extra-index-url https://wheels.vllm.ai/nightly

vllm serve <MODEL_PATH_OR_HF_ID>\
 --served-model-name step3p5-flash \
 --tensor-parallel-size 8\
 --enable-expert-parallel \
 --disable-cascade-attn \
 --reasoning-parser step3p5 \
 --enable-auto-tool-choice \
 --tool-call-parser step3p5 \
 --hf-overrides '{"num_nextn_predict_layers": 1}'\
 --speculative_config '{"method": "step3p5_mtp", "num_speculative_tokens": 1}'\
 --trust-remote-code \
 --quantization fp8

vllm serve <MODEL_PATH_OR_HF_ID>\
 --served-model-name step3p5-flash \
 --tensor-parallel-size 8\
 --enable-expert-parallel \
 --disable-cascade-attn \
 --reasoning-parser step3p5 \
 --enable-auto-tool-choice \
 --tool-call-parser step3p5 \
 --hf-overrides '{"num_nextn_predict_layers": 1}'\
 --speculative_config '{"method": "step3p5_mtp", "num_speculative_tokens": 1}'\
 --trust-remote-code

# via Docker
docker pull lmsysorg/sglang:dev-pr-18084 
# or from source (pip)
pip install"sglang[all] @ git+https://github.com/sgl-project/sglang.git"

sglang serve --model-path <MODEL_PATH_OR_HF_ID>\
 --served-model-name step3p5-flash \
 --tp-size 8\
 --tool-call-parser step3p5 \
 --reasoning-parser step3p5 \
 --speculative-algorithm EAGLE \
 --speculative-num-steps 3\
 --speculative-eagle-topk 1\
 --speculative-num-draft-tokens 4\
 --enable-multi-layer-eagle \
 --host 0.0.0.0 \
 --port 8000

sglang serve --model-path <MODEL_PATH_OR_HF_ID>\
 --served-model-name step3p5-flash \
 --tp-size 8\
 --ep-size 8\
 --tool-call-parser step3p5 \
 --reasoning-parser step3p5 \
 --speculative-algorithm EAGLE \
 --speculative-num-steps 3\
 --speculative-eagle-topk 1\
 --speculative-num-draft-tokens 4\
 --enable-multi-layer-eagle \
 --host 0.0.0.0 \
 --port 8000

from transformers import AutoModelForCausalLM, AutoTokenizer
MODEL_PATH ="<MODEL_PATH_OR_HF_ID>"
# 1. Setup
tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_PATH, trust_remote_code=True, torch_dtype="auto", device_map="auto",
)
# 2. Prepare Input
messages =[{"role":"user","content":"Explain the significance of the number 42."}]
inputs = tokenizer.apply_chat_template(
    messages, tokenize=True, add_generation_prompt=True,
    return_dict=True, return_tensors="pt",
).to(model.device)
# 3. Generate
generated_ids = model.generate(**inputs, max_new_tokens=128, do_sample=False)
output_text = tokenizer.decode(generated_ids[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
print(output_text)

git clone [email protected]:stepfun-ai/Step-3.5-Flash.git
cd Step-3.5-Flash/llama.cpp

cmake -S . -B build-macos \
 -DCMAKE_BUILD_TYPE=Release \
 -DGGML_METAL=ON \
 -DGGML_ACCELERATE=ON \
 -DLLAMA_BUILD_EXAMPLES=ON \
 -DLLAMA_BUILD_COMMON=ON \
 -DGGML_LTO=ON
cmake --build build-macos -j8

cmake -S . -B build-cuda \
 -DCMAKE_BUILD_TYPE=Release \
 -DGGML_CUDA=ON \
 -DGGML_CUDA_GRAPHS=ON \
 -DLLAMA_CURL=OFF \
 -DLLAMA_BUILD_EXAMPLES=ON \
 -DLLAMA_BUILD_COMMON=ON
cmake --build build-cuda -j8

cmake -S . -B build-vulkan \
 -DCMAKE_BUILD_TYPE=Release \
 -DLLAMA_CURL=OFF \
 -DGGML_OPENMP=ON \
 -DGGML_VULKAN=ON
cmake --build build-vulkan -j8

./llama-cli -m step3.5_flash_Q4_K_S.gguf -c 16384 -b 2048 -ub 2048 -fa on --temp 1.0 -p "What's your name?"

./llama-batched-bench -m step3.5_flash_Q4_K_S.gguf -c 32768 -b 2048 -ub 2048 -npp 0,2048,8192,16384,32768 -ntg 128 -npl 1

# Install nvm on Mac/Linux via curl：
# Step 1
curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.0/install.sh | bash
# Copy the full command
export NVM_DIR="$HOME/.nvm"
[ -s "$NVM_DIR/nvm.sh" ] &&\. "$NVM_DIR/nvm.sh"
# This loads nvm
[ -s "$NVM_DIR/bash_completion" ] &&\. "$NVM_DIR/bash_completion"
# Users in China can set up npm mirror config set registry https://registry.npmmirror.com 
# Step 2
nvm install v22 
# Make sure Node.js is installed
node --version
npm --version

# install claude code via npm
npm install -g @anthropic-ai/claude-code 
# test if the installation is successful
claude --version

{"env":{"ANTHROPIC_API_KEY":"API_KEY_from_StepFun","ANTHROPIC_BASE_URL":"https://api.stepfun.ai/"},"model":"step-3.5-flash"}

❯ /status ───────────────────────────────────────────────────────────────────────────────── Settings: Status Config Usage (←/→ or tab to cycle) Version: 2.1.1 Session name: /rename to add a name Session ID: 676dae61-259d-4eef-8c2f-0f1641600553 cwd: /Users/step-test/ Auth token: none API key: ANTHROPIC_API_KEY Anthropic base URL: https://api.stepfun.ai/ Model: step-3.5-flash Setting sources: User settings

# install ccr via npm
npm install -g @musistudio/claude-code-router 
# validate it is installed
ccr -v

{"PORT":3456,"Providers":[{"name":"stepfun-api","api_base_url":"https://api.stepfun.com/v1/chat/completions","api_key":"StepFun_API_KEY","models":["step-3.5-flash"],"transformer":{"step-3.5-flash":{"use":["OpenAI"]}}}],"Router":{"default":"stepfun-api,step-3.5-flash","background":"stepfun-api,step-3.5-flash","think":"stepfun-api,step-3.5-flash","longContext":"stepfun-api,step-3.5-flash","webSearch":"stepfun-api,step-3.5-flash"}}

# Start Claude
ccr code 
# restart ccr if configs are changed
ccr restart

# Install codex via npm
npm install -g @openai/codex 
# Test if it is installed
codex --version

model="step-3.5-flash"
model_provider ="stepfun-chat"
preferred_auth_method ="apikey" 
# configure the provider
[model_providers.stepfun-chat]
name ="OpenAI using response"
base_url ="https://api.stepfun.com/v1"
env_key ="OPENAI_API_KEY"
wire_api ="chat"
query_params ={}

/status 📂 Workspace • Path: /Users/step-test/ • Approval Mode: on-request • Sandbox: workspace-write • AGENTS files: (none) 🧠 Model • Name: step-3.5-flash • Provider: Stepfun-chat 💻 Client • CLI Version: 0.40.0

跃阶星辰 AI 开源 Step-3.5-Flash 本地部署指南

1. 简介

2. 核心能力

3. 性能表现

详细基准测试

更多推荐文章

相关免费在线工具

4. 架构细节

4.1 技术规格

4.2 混合专家（MoE）路由

4.3 多 token 预测（MTP）

5. 快速开始

5.1 获取 API 密钥

5.2 安装配置

5.3 实现示例

6. 本地部署

6.1 vLLM

6.2 SGLang

6.3 Transformers（调试/验证）

6.4 llama.cpp

系统需求

步骤

7. 在代理平台使用 Step 3.5 Flash

7.1 Claude Code 与 Codex 平台

7.1.1 准备工作

7.1.2 环境配置

7.1.3 使用步骤 3.5 在 Claude Code 上刷机

7.1.4 使用步骤 3.5 在 Codex 上刷机

7.1.5 使用步骤 3.5 Flash 版进行深度研究（Step-DeepResearch）

8. 已知问题与未来方向

9. 共同开发未来

许可证

更多推荐文章

相关免费在线工具

跃阶星辰 AI 开源 Step-3.5-Flash 本地部署指南

1. 简介

2. 核心能力

3. 性能表现

详细基准测试

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4. 架构细节

4.1 技术规格

4.2 混合专家（MoE）路由

4.3 多 token 预测（MTP）

5. 快速开始

5.1 获取 API 密钥

5.2 安装配置

5.3 实现示例

6. 本地部署

6.1 vLLM

6.2 SGLang

6.3 Transformers（调试/验证）

6.4 llama.cpp

系统需求

步骤

7. 在代理平台使用 Step 3.5 Flash

7.1 Claude Code 与 Codex 平台

7.1.1 准备工作

7.1.2 环境配置

7.1.3 使用步骤 3.5 在 Claude Code 上刷机

7.1.4 使用步骤 3.5 在 Codex 上刷机

7.1.5 使用步骤 3.5 Flash 版进行深度研究（Step-DeepResearch）

8. 已知问题与未来方向

9. 共同开发未来

许可证

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具