跳到主要内容

极客日志面向AI+效率的开发者社区

首页博客 GitHub 精选镜像 AI 生图工具 UI配色美学隐私政策关于联系

搜索内容 / 工具 / 仓库 / 镜像...⌘K 搜索

UC 伯克利开源 450 美元训练成本 32B 推理模型 Sky-T1 | 极客日志

PythonAI算法

UC 伯克利开源 450 美元训练成本 32B 推理模型 Sky-T1

UC 伯克利 NovaSky 团队发布 Sky-T1-32B-Preview 推理模型，训练成本低于 450 美元。该模型在数学和编码基准测试中表现媲美 OpenAI o1 早期版本，并开源了数据集、代码及权重。技术细节包括使用 QwQ-32B-Preview 生成合成数据、拒绝采样优化质量、基于 Qwen2.5-32B 微调。研究发现模型大小和数据混合对推理能力至关重要。此举标志着低成本高性能推理模型的开源化趋势，降低了社区复现门槛。

lzdxwyh发布于 2025/2/7更新于 2026/7/2047 浏览

UC 伯克利开源 450 美元训练成本 32B 推理模型 Sky-T1

UC 伯克利开源 450 美元训练成本 32B 推理模型 Sky-T1

引言：推理模型的成本革命

450 美元的价格，乍一听起来不算「小数目」。但如果，这是一个 32B（320 亿参数）推理模型的全部训练成本呢？

是的，当时间来到 2025 年，推理模型正变得越来越容易开发，且成本迅速降低到我们此前无法想象的程度。近日，加州大学伯克利分校天空计算实验室的研究团队 NovaSky 发布了 Sky-T1-32B-Preview。有趣的是，团队表示：「Sky-T1-32B-Preview 的训练成本不到 450 美元，这表明可以经济、高效地复制高级推理能力。」

Sky-T1 性能对比图

项目主页：https://novasky-ai.github.io/posts/sky-t1/

开源地址：https://huggingface.co/NovaSky-AI/Sky-T1-32B-Preview

据官方信息，这款推理模型在多个关键基准测试中与 OpenAI o1 的早期版本相媲美。

Sky-T1 基准测试结果

重点是，Sky-T1 似乎是第一个真正开源的推理模型，因为团队发布了训练数据集以及必要的训练代码，任何人都可以从头开始复制。

大家惊呼：「数据、代码和模型权重，多么惊人的贡献。」

Sky-T1 开源资源展示

不久前，训练一个具有同等性能的模型的价格往往高达数百万美元。合成训练数据或由其他模型生成的训练数据，让成本实现了大幅降低。

此前，一家 AI 公司 Writer 发布的 Palmyra X 004 几乎完全基于合成数据进行训练，开发成本仅为 70 万美元。

想象一下，以后我们可以在 Nvidia Project Digits AI 超级计算机上运行此程序，该超级计算机售价 3000 美元（对于超级计算机来说很便宜），可以运行多达 2000 亿个参数的模型。而不久的将来，不到 1 万亿个参数的模型将由个人在本地运行。

2025 年的大模型技术演进正在加速，这感受确实很强烈。

模型概述

擅长推理的 o1 和 Gemini 2.0 flash thinking 等模型通过产生长长的内部思维链（Chain of Thought），解决了复杂的任务，并取得了其他方面的进步。然而，技术细节和模型权重却无法获取，这对学术界和开源社区的参与构成了障碍。

为此，在数学领域出现了一些训练开放权重推理模型的显著成果，如 Still-2 和 Journey。与此同时，加州大学伯克利分校的 NovaSky 团队一直在探索各种技术，以发展基础模型和指令调整模型的推理能力。

在 Sky-T1-32B-Preview 这项工作中，团队不仅在数学方面取得了有竞争力的推理性能，而且在同一模型的编码方面也取得了有竞争力的推理性能。

Sky-T1 多领域表现

为确保这项工作能「惠及更广泛的社区」，团队开源了所有细节（如数据、代码、模型权重），使社区能够轻松复制和改进：

基础设施：在单一存储库中构建数据、训练和评估模型；
数据：用于训练 Sky-T1-32B-Preview 的 17K 数据；
技术细节：技术报告及 wandb 日志；
模型权重：32B 模型权重。

Sky-T1 开源结构

技术细节深度解析

数据整理过程

为了生成训练数据，团队使用了 QwQ-32B-Preview，这是一个开源模型，其推理能力与 o1-preview 相当。团队对数据混合进行了整理，以涵盖需要推理的不同领域，并采用拒绝采样程序来提高数据质量。

然后，团队受到 Still-2 的启发，用 GPT-4o-mini 将 QwQ trace 重写为结构规整的版本，以提高数据质量并简化解析。

他们发现，解析的简便性对推理模型尤其有利。它们被训练成以特定格式做出响应，而结果往往难以解析。例如，在 APPs 数据集上，如果不重新格式化，团队只能假设代码是写在最后一个代码块中的，而 QwQ 只能达到约 25% 的准确率。但是，有时代码可能写在中间，经过重新格式化后，准确率会提高到 90% 以上。

拒绝采样策略：根据数据集提供的解决方案，如果 QwQ 样本不正确，团队就会将其丢弃。对于数学问题，团队会与 ground truth 解决方案进行精确匹配。对于编码问题，团队执行数据集中提供的单元测试。团队的最终数据包含来自 APPs 和 TACO 的 5k 编码数据，以及来自 AIME、MATH 和 NuminaMATH 数据集的 Olympiads 子集的 10k 数学数据。此外，团队还保留了来自 STILL-2 的 1k 科学和谜题数据。

训练配置详解

团队使用训练数据来微调 Qwen2.5-32B-Instruct，这是一个不具备推理能力的开源模型。该模型采用 3 个 epoch、学习率 1e-5 和 96 的批大小进行训练。使用 DeepSpeed Zero-3 offload（根据 Lambda Cloud 的定价约为 450 美元），在 8 个 H100 上用 19 个小时完成模型训练。团队使用了 Llama-Factory 进行训练。

DeepSpeed Zero-3 Offload 是一种显存优化技术，它将模型参数、梯度和优化器状态分片到多个 GPU 上，并将部分数据卸载到 CPU 内存中，从而允许在有限的硬件资源下训练更大的模型。这种技术是控制成本的关键因素之一。

评估结果分析

Sky-T1 在 MATH500（「竞赛级」数学挑战）上的表现优于 o1 的早期预览版本，还在一组来自 LiveCodeBench（一种编码评估）的难题上击败了 o1 的预览版本。然而，Sky-T1 不如 GPQA-Diamond 上的 o1 预览版，后者包含博士毕业生应该了解的物理、生物和化学相关问题。

Sky-T1 评测对比

不过，OpenAI 的 o1 GA 版本比 o1 的预览版更强大，并且 OpenAI 预计将在未来几周发布性能更佳的推理模型 o3。

值得重视的新发现

模型大小很重要

团队最初尝试在较小的模型（7B 和 14B）上进行训练，但观察到的改进不大。例如，在 APPs 数据集上训练 Qwen2.5-14B-Coder-Instruct 在 LiveCodeBench 上的性能略有提高，从 42.6% 提高到 46.3%。然而，在手动检查较小模型（小于 32B 的模型）的输出时，团队发现它们经常生成重复内容，从而限制了它们的有效性。

这表明推理能力并非线性增长，存在一个阈值，超过该阈值后，模型才能展现出稳定的复杂逻辑处理能力。

数据混合很重要

团队最初使用 Numina 数据集（由 STILL-2 提供）中的 3-4K 个数学问题训练 32B 模型，AIME24 的准确率从 16.7% 显著提高到 43.3%。然而，将 APPs 数据集生成的编程数据纳入训练过程时，AIME24 的准确率下降到 36.7%。可能意味着，这种下降是由于数学和编程任务所需的推理方法不同。

编程推理通常涉及额外的逻辑步骤，如模拟测试输入或内部执行生成的代码，而数学问题的推理往往更为直接和结构化。 为了解决这些差异，团队使用 NuminaMath 数据集中具有挑战性的数学问题和 TACO 数据集中复杂的编程任务来丰富训练数据。这种均衡的数据混合使模型在两个领域都表现出色，在 AIME24 上恢复了 43.3% 的准确率，同时也提高了其编程能力。

行业影响与未来展望

Sky-T1 的出现标志着开源推理模型的一个重要里程碑。过去，高性能推理模型往往被闭源巨头垄断，导致学术界和中小企业难以跟进。Sky-T1 的低成本和高可复现性，使得更多开发者能够参与到推理模型的研究和优化中来。

未来的研究方向可能包括：

更大规模的数据集：进一步扩充高质量推理数据，覆盖更多学科领域。
更高效的训练方法：探索更低成本的训练框架，进一步降低门槛。
多模态推理：将推理能力扩展到图像、视频等多模态数据。
本地化部署：随着硬件成本下降，推理模型有望在消费级设备上流畅运行。

与此同时，也有研究者表示了怀疑：

业界观点讨论

业界观点讨论 2

尽管存在争议，Sky-T1 无疑为开源社区提供了宝贵的参考。它证明了通过精心设计的合成数据和优化的训练流程，低成本训练高性能推理模型是可行的。这一突破将激励更多团队投身于开源 AI 生态的建设中，推动整个行业的技术进步。

结语

Sky-T1-32B-Preview 的成功发布，不仅展示了 UC 伯克利团队的技术实力，也为全球 AI 开发者提供了一个极具价值的开源范例。通过公开数据、代码和权重，NovaSky 团队降低了推理模型的开发门槛，促进了知识的共享与传播。随着技术的不断迭代，我们有理由相信，未来将有更多低成本、高性能的推理模型涌现，为人工智能的普及和应用奠定坚实基础。

目录

UC 伯克利开源 450 美元训练成本 32B 推理模型 Sky-T1
引言：推理模型的成本革命
模型概述
技术细节深度解析
数据整理过程
训练配置详解
评估结果分析
值得重视的新发现
模型大小很重要
数据混合很重要
行业影响与未来展望
结语

免费图片AI生成工具免费生成了解详情

Magick API 一键接入全球大模型注册送1000万token查看
免费图片视频在线生成30秒，将你的创意变成现实开始设计
X/Twitter免费视频下载器免登陆无限额度免费视频解析下载了解详情
100+免费在线小游戏爽一把

极客日志微信公众号二维码

微信扫一扫，关注极客日志

微信公众号「极客日志V2」，在微信中扫描左侧二维码关注。展示文案：极客日志V2 zeeklog

更多推荐文章

Flutter 与 HarmonyOS 6.0 推荐视频功能实现解析
二分查找实战：山峰数组峰顶索引与寻找峰值解析
OpenClaw 开源 AI 智能体：核心原理与本地部署指南
SpringBoot 源码解析：AnnotationConfigServletWebServerApplicationContext 构造方法
AI 自动化测试：技术架构、厂商实践与难点优化
Linux 实践：匿名管道与 Shell 外壳程序完善
深入解析：为什么 C++ 被认为是最难学的编程语言？
GitHub Copilot 接入 Figma MCP 实现设计稿转前端代码
Linux 多线程编程核心原理与实践
深度学习 YOLOv11 空域安全无人机检测识别系统
Llama-3.2-3B 在 Ollama 下的中文法律理解与类案推荐表现
C++ std::promise 原理与实战解析
Trae AI 安装与使用指南
Java 字符处理核心：char、String、StringBuilder 与 StringBuffer 详解
Python 基础入门：数据存储与运算符详解
OpenCV + Python 图像处理与人脸识别实战
Dify 对接 HeyGem：构建低代码 AI 数字人 SaaS 服务
Python 常用第三方库整理：数据分析、爬虫与机器学习
Spring AI Alibaba 快速入门指南
暴力枚举算法原理及经典例题解析

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online