跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

全球首个去中心化训练大模型 INTELLECT-1 全流程开源

综述由AI生成11 月 22 日 Prime Intellect 宣布完成去中心化方式训练的 10B 模型 INTELLECT-1,并开源了基础模型、检查点、数据及 PRIME 训练框架。该模型涉及 3 个大洲 5 个国家,运行 112 台 H100 GPU,计算利用率达 83%。基于 Llama-3 架构,在 1 万亿 token 数据集上训练 42 天。评估显示其文本理解尚可但汉语能力一般且存在幻觉。未来计划扩展至前沿规模以实现开源 AGI。

云朵棉花糖发布于 2025/2/6更新于 2026/6/223 浏览
全球首个去中心化训练大模型 INTELLECT-1 全流程开源

11 月 22 日,Prime Intellect 宣布通过去中心化方式训练完成了一个 10B 参数的大模型。11 月 30 日,他们开源了一切,包括基础模型、检查点、后训练模型、数据、PRIME 训练框架和技术报告。据了解,这应该是有史以来首个以去中心化形式训练得到的 10B 大模型。

INTELLECT-1 模型发布页面

技术报告:https://github.com/PrimeIntellect-ai/prime/blob/main/INTELLECT_1_Technical_Report.pdf

Hugging Face 页面:https://huggingface.co/PrimeIntellect/INTELLECT-1-Instruct

GitHub 地址:https://github.com/PrimeIntellect-ai/prime

体验链接:chat.primeintellect.ai

Prime Intellect 表示,相比此前的研究,INTELLECT-1 实现了 10 倍的规模提升。这一突破证明,大规模模型训练已不再是大公司的专利,通过去中心化的、社区驱动的方式同样可以实现。

他们的下一步计划是将模型进一步扩展到前沿规模,最终目标是实现开源 AGI。这一点在其在线 Demo 的模型选项中已有暗示——其中包含开放推理模型甚至 AGI 和 ASI 的潜在选项。看起来这确实是一个雄心勃勃的团队。

INTELLECT-1 训练过程监控

模型发布后,虽也有质疑声音,但 AI 社区总体上还是给出了非常积极的肯定。

AI 社区反馈截图

机器之心也用几个经典问题简单尝试了其在线 Demo 版本的模型。

首先是经典的草莓问题,INTELLECT-1 一开始答对了,但继续提问就又变成了常见的错误答案。

草莓问题测试

该模型也具备还不错的文本理解能力,但总体而言和 Llama 和 Qwen 等前沿开源模型还有所差距。

下面我们看看它的汉语能力。从多次测试的结果来看,这个模型的汉语能力并不好,并且幻觉现象似乎也挺严重的,比如下图中,即使该模型暂时并不具备读取链接的能力,也会根据上下文强行作答。

中文能力测试

不管怎样,INTELLECT-1 都是 AI 历史上一次颇具开创性的实验。下面我们就来看看这个系统是如何炼成的。

大规模去中心化训练

Prime Intellect 的这场去中心化训练的规模其实相当大,涉及到 3 个大洲的 5 个国家,同时运行了 112 台 H100 GPU。

全球 30 位贡献者的基本信息

该团队表示:「我们在各大洲实现了 83% 的总体计算利用率。当仅在分布于整个美国的节点上进行训练时,实现了 96% 的计算利用率。与中心化训练方法相比,开销极小。」

这样的结果表明 INTELLECT-1 在存在严重的带宽限制和节点波动的情况下,依然能维持训练收敛性和高计算利用率,这昭示了一种新的可能性:能够以去中心化、社区驱动的方式训练出前沿的基础模型!

全球分布式节点拓扑

一万亿 token 的训练过程,这里给出了训练过程中损失、困惑度、训练速度等信息

训练细节与数据集

INTELLECT-1 基于 Llama-3 架构,它包含以下核心配置:

  • 42 层 Transformer 层数
  • 隐藏维度为 4,096
  • 32 个注意力头
  • 序列长度为 8,192
  • 词表大小为 128,256

模型架构参数

模型在经过精心筛选的 1 万亿 token 数据集上训练,数据构成如下:

  • 55% FineWeb-Edu:高质量教育类网页数据,提供扎实的通用知识基础。
  • 20% Stack v2:Stack Overflow 等技术问答数据,增强代码理解和逻辑推理能力。
  • 10% FineWeb:精选网页数据,补充日常语言使用场景。
  • 10% DCLM-baseline:基准通用语料,确保语言分布的广泛性。
  • 5% OpenWebMath:数学数据,强化数值计算和逻辑推导能力。

数据集构成饼图

模型训练持续了 42 天,采用了以下关键技术优化:

  1. WSD (Weighted Stochastic Decay):动态调整学习速度,让模型学习更高效,避免陷入局部最优。
  2. 精细调教的学习参数:内层学习率设为 7.5e-5,平衡收敛速度与稳定性。
  3. 特殊的损失函数(max-z-loss):确保训练过程的稳定性,减少梯度爆炸风险。
  4. Nesterov 动量优化算法:帮助模型更快更好地学习,加速收敛。
  5. 支持训练机器的灵活接入和退出:最多可同时使用 14 台机器协同训练,适应去中心化网络的不稳定性。

训练超参数设置

从训练过程的监控图表可以看出,PRIME 系统表现出色:即使参与训练的机器数量经常变化(从最少 4 台逐渐增加到最多 14 台),整个训练过程依然保持稳定,充分证明了系统的可靠性。

训练动态曲线

训练动态图展示了整个训练过程中模型困惑度和学习率的变化,包括预热阶段、稳定阶段和退火阶段。

Prime:一个去中心化训练框架

该团队使用的训练框架名为 Prime,这基于他们开发的 OpenDiLoCo。而 OpenDiLoCo 又基于 DeepMind 之前开发的 Distributed Low-Communication(DiLoCo)方法。

项目地址:https://github.com/PrimeIntellect-ai/OpenDiLoCo

在此之前,Prime Intellect 已经在 1B 参数规模上实验了去中心化 AI 模型训练。该团队表示:「这让我们到达了我们的 masterplan 的第三步:合作训练用于语言、智能体和科学的开放式基础模型。」

Prime Intellect 路线图

Prime Intellect 的 masterplan

相比于之前开源的 OpenDiLoCo,Prime 有两大关键提升。

一是在算法方面,他们在 OpenDiLoCo 上执行了许多消融研究,发现还能进一步降低通信要求。值得注意的是,他们将伪梯度的 int8 量化与每 500 步进行一次的外部优化器同步相结合,从而将带宽要求降低了多达 2000 倍。这些结果不仅在较小规模下是有效的,该团队也将它们扩展到了更大的模型。

在具体的大规模扩展方面,我们知道,去中心化训练既是工程挑战,也是研究挑战。当今最大的 AI 实验室也还没有彻底解决在多个分布式数据中心上的容错训练。该团队表示,Prime 这种全新的去中心化训练框架支持容错训练,支持计算资源的动态开启/关闭,还能优化全球分布式 GPU 网络中的通信和路由。

ElasticDeviceMesh 拓扑

Prime 中用于容错训练的 ElasticDeviceMesh 的拓扑结构

该团队在博客中写道:「该框架构成了我们开源技术堆栈的基础,其目标是支持我们自己的算法以及 OpenDiLoCo 之外的其他去中心化训练算法。通过在此基础架构上构建,我们的目标是突破全球分布式 AI 训练的极限。」

具体来说,Prime 框架包含以下关键特性:

  • 用于容错训练的 ElasticDeviceMesh
  • 异步分布式检查点
  • 实时检查点恢复
  • 自定义 Int8 All-Reduce 内核
  • 最大化带宽利用率
  • PyTorch FSDP2 / DTensor ZeRO-3 实现
  • CPU 卸载

计算效率

虽然训练散作满天星,但计算效率仍保持「聚是一团火」的高水准:在美国境内集群部署时,计算资源利用率高达 96%(中位数同步延迟仅 103s);跨越大西洋的部署场景下依然维持在 85.6% 的优异水平(中位数同步延迟 382s);即便是在全球分布式节点配置下,计算利用率也能稳定保持在 83%(中位数同步延迟 469s)。

跨地域计算效率对比

这一系列亮眼的数据充分证明了该去中心化训练框架的容错性和扩展性,不仅能够从容应对不同地理位置的网络延迟挑战,更在确保训练稳定性的同时实现了高效计算。

后训练

在完成分布在全球的预训练阶段后,Prime Intellect 与 Arcee AI 合作开展了一系列后训练,以提升 INTELLECT-1 的整体能力和特定任务表现。主要包含三个阶段:

  1. SFT(监督微调):进行 16 轮迭代,使模型遵循指令格式。
  2. DPO(直接偏好优化):进行 8 轮迭代,对齐人类价值观和偏好。
  3. 使用 MergeKit 整合训练成果:融合不同阶段的权重优势。

更多信息请查看详细技术报告:

后训练流程示意图

论文链接:https://github.com/PrimeIntellect-ai/prime/blob/main/INTELLECT_1_Technical_Report.pdf

未来计划:长期目标是 AGI

INTELLECT-1 的成功让我们看到了去中心化训练的巨大潜力。至于如何将开源的 PRIME 框架扩展到目前动辄 70B 的规模呢?Prime Intellect 提了三点规划:

  1. 继续扩大全球计算网络,吸纳更多算力节点。
  2. 用更多奖金激励推动社区参与,形成良性生态。
  3. 进一步优化 PRIME 去中心化训练架构以支持更大的模型。

在博客结尾,Prime Intellect 写道:「为了防止 AI 能力被少数组织垄断,我们诚邀全球 AI 社区通过 GitHub 或 Discord 加入我们。让我们携手共建一个更开放、更具协作性的 AI 发展未来。」

社区邀请海报

团队愿景图

目录

  1. 大规模去中心化训练
  2. 训练细节与数据集
  3. Prime:一个去中心化训练框架
  4. 计算效率
  5. 后训练
  6. 未来计划:长期目标是 AGI
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Java Servlet 全面指南:从基础原理到 Spring Boot 实战
  • Nvidia 与 GitHub 免费大模型 API Key 获取指南
  • C++ 自定义日志库实现:策略模式与线程安全
  • AirSim 无人机仿真平台零基础部署实战指南
  • 基于 Go 语言构建命令行 AI 对话客户端:从环境部署到核心实现
  • Linux 系统学习:Git 原理与进阶使用(下)
  • RoboChallenge 发布具身智能年度报告:4 万次真机评测显示最强模型成功率仅 51%
  • Seedance 2.0 算力成本治理 SOP:SLA 预警、多租户分摊与多云计费映射
  • Go Web 开发必备核心理论
  • ESP32 开发板创建同步 WebServer 网页服务器
  • 从人类视频到机器人跳舞:BeyondMimic 全流程解析与 rl_sar 部署实践
  • MySQL 常见超时参数解析与实战调优
  • 宜搭低代码高级认证:待办列表实操实现
  • FastAPI 高性能后端开发实战
  • 深入理解 Linux 网络层
  • OpenClaw 开源 AI 智能体框架技术解析与部署指南
  • Stable Diffusion 3.5 FP8 镜像在 Mac M 系列芯片上的 Rosetta 转译实测
  • Qt/C++ 皮肤生成器与界面定制方案
  • 分治归并排序算法实战:从基础到逆序对统计
  • Spring Boot 虚拟线程时代:WebFlux 与 WebMVC 选型指南

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online