前言
在人工智能领域,推理模型的性能与效率一直是研究者和开发者关注的焦点。蚂蚁技术团队推出的 Ring-lite,作为一款基于 MoE 架构的轻量级推理模型,凭借其创新的 C3PO 强化学习训练方法和高效的多领域推理能力,为轻量级推理模型的发展树立了新的标杆。

一、项目概述
Ring-lite 是蚂蚁技术 AntTech 团队基于 MoE 架构推出的轻量级推理模型,以 Ling-lite-1.5 为基础,采用独创的 C3PO 强化学习训练方法,在多项推理 Benchmark 上达到 SOTA 效果,仅用 2.75B 激活参数。该模型通过稳定强化学习训练、优化 Long-CoT SFT 与 RL 的训练比重、解决多领域任务联合训练难题等技术创新,实现了高效推理,并开源了技术栈,包括模型权重、训练代码、数据集等,推动轻量级 MoE 推理模型的发展。
二、技术原理
(一)MoE 架构
Ring-lite 基于 Mixture-of-Experts(MoE)架构,该架构通过多个专家网络的组合来处理输入数据。每个专家网络负责处理特定的子任务或数据特征,从而提高模型的推理能力和效率。这种架构的优势在于能够根据输入数据的不同特征,动态地选择最合适的专家网络进行处理,实现资源的高效利用和推理性能的提升。
(二)C3PO 强化学习训练方法
C3PO(Constrained Contextual Computation Policy Optimization)是 Ring-lite 的创新强化学习训练方法。它通过固定每个训练步骤的总训练 token 数,消除由于生成回复长度波动带来的优化不稳定和吞吐波动问题。C3PO 基于熵损失(entropy loss)的策略选择合适的起点模型,进一步稳定训练过程。这种方法有效解决了传统强化学习训练中的不稳定性问题,提高了训练过程的稳定性和效率。
(三)Long-CoT SFT 与 RL 的结合
Ring-lite 采用 Long-CoT(长推理链)监督微调(SFT)和强化学习(RL)相结合的两阶段训练方法。Long-CoT SFT 使模型能够学习到复杂的推理模式,而 RL 则让模型在特定任务上进一步优化性能。Ring-lite 通过实验确定最佳的 SFT 和 RL 训练比重,在 token 效率和性能之间取得平衡,充分发挥了两种训练方法的优势。
(四)多领域数据联合训练
Ring-lite 在训练过程中采用数学、编程和科学等多个领域的数据。通过分阶段训练的方法,在数学任务上进行训练,然后在代码和科学任务上进行联合训练,有效地解决了多领域数据联合训练中的领域冲突问题。这种训练方式不仅提高了模型在不同领域的推理能力,还增强了模型的泛化能力。

三、主要功能
(一)高效推理
Ring-lite 能在多项复杂的推理任务中实现高效推理,如数学推理、编程竞赛和科学推理等。其高效的推理能力得益于 MoE 架构和 C3PO 强化学习训练方法的结合,使得模型在处理复杂问题时能够快速准确地给出推理结果。
(二)轻量级设计
Ring-lite 的总参数量为 16.8B,激活参数仅为 2.75B,在保持高性能的同时,具有较低的计算资源需求。这种轻量级设计使得 Ring-lite 适合在资源受限的环境中使用,如移动设备、边缘计算设备等,为推理模型的广泛应用提供了可能。
(三)多领域推理
Ring-lite 能处理多个领域的推理任务,包括数学、编程和科学等。它通过联合训练和分阶段训练的方法,实现在不同领域之间的协同增益,提高模型的泛化能力。这种多领域推理能力使得 Ring-lite 能够应用于多种场景,满足不同领域的推理需求。
(四)稳定训练
基于 C3PO 强化学习训练方法,Ring-lite 解决了传统强化学习训练中的不稳定性问题,提高了训练过程的稳定性和效率。稳定的训练过程不仅保证了模型性能的持续提升,还减少了训练过程中的资源浪费和时间成本。





