蚂蚁开源 Ring-lite：2.75B 激活参数轻量级推理模型

前言

在人工智能领域，推理模型的性能与效率一直是研究者和开发者关注的焦点。蚂蚁技术团队推出的 Ring-lite，作为一款基于 MoE 架构的轻量级推理模型，凭借其创新的 C3PO 强化学习训练方法和高效的多领域推理能力，为轻量级推理模型的发展树立了新的标杆。

Ring-lite 架构图

一、项目概述

Ring-lite 是蚂蚁技术 AntTech 团队基于 MoE 架构推出的轻量级推理模型，以 Ling-lite-1.5 为基础，采用独创的 C3PO 强化学习训练方法，在多项推理 Benchmark 上达到 SOTA 效果，仅用 2.75B 激活参数。该模型通过稳定强化学习训练、优化 Long-CoT SFT 与 RL 的训练比重、解决多领域任务联合训练难题等技术创新，实现了高效推理，并开源了技术栈，包括模型权重、训练代码、数据集等，推动轻量级 MoE 推理模型的发展。

二、技术原理

（一）MoE 架构

Ring-lite 基于 Mixture-of-Experts（MoE）架构，该架构通过多个专家网络的组合来处理输入数据。每个专家网络负责处理特定的子任务或数据特征，从而提高模型的推理能力和效率。这种架构的优势在于能够根据输入数据的不同特征，动态地选择最合适的专家网络进行处理，实现资源的高效利用和推理性能的提升。

（二）C3PO 强化学习训练方法

C3PO（Constrained Contextual Computation Policy Optimization）是 Ring-lite 的创新强化学习训练方法。它通过固定每个训练步骤的总训练 token 数，消除由于生成回复长度波动带来的优化不稳定和吞吐波动问题。C3PO 基于熵损失（entropy loss）的策略选择合适的起点模型，进一步稳定训练过程。这种方法有效解决了传统强化学习训练中的不稳定性问题，提高了训练过程的稳定性和效率。

（三）Long-CoT SFT 与 RL 的结合

Ring-lite 采用 Long-CoT（长推理链）监督微调（SFT）和强化学习（RL）相结合的两阶段训练方法。Long-CoT SFT 使模型能够学习到复杂的推理模式，而 RL 则让模型在特定任务上进一步优化性能。Ring-lite 通过实验确定最佳的 SFT 和 RL 训练比重，在 token 效率和性能之间取得平衡，充分发挥了两种训练方法的优势。

（四）多领域数据联合训练

Ring-lite 在训练过程中采用数学、编程和科学等多个领域的数据。通过分阶段训练的方法，在数学任务上进行训练，然后在代码和科学任务上进行联合训练，有效地解决了多领域数据联合训练中的领域冲突问题。这种训练方式不仅提高了模型在不同领域的推理能力，还增强了模型的泛化能力。

训练流程示意图

三、主要功能

（一）高效推理

Ring-lite 能在多项复杂的推理任务中实现高效推理，如数学推理、编程竞赛和科学推理等。其高效的推理能力得益于 MoE 架构和 C3PO 强化学习训练方法的结合，使得模型在处理复杂问题时能够快速准确地给出推理结果。

（二）轻量级设计

Ring-lite 的总参数量为 16.8B，激活参数仅为 2.75B，在保持高性能的同时，具有较低的计算资源需求。这种轻量级设计使得 Ring-lite 适合在资源受限的环境中使用，如移动设备、边缘计算设备等，为推理模型的广泛应用提供了可能。

（三）多领域推理

Ring-lite 能处理多个领域的推理任务，包括数学、编程和科学等。它通过联合训练和分阶段训练的方法，实现在不同领域之间的协同增益，提高模型的泛化能力。这种多领域推理能力使得 Ring-lite 能够应用于多种场景，满足不同领域的推理需求。

（四）稳定训练

基于 C3PO 强化学习训练方法，Ring-lite 解决了传统强化学习训练中的不稳定性问题，提高了训练过程的稳定性和效率。稳定的训练过程不仅保证了模型性能的持续提升，还减少了训练过程中的资源浪费和时间成本。

# AutoModelForCausalLM 用于加载因果语言模型 # AutoTokenizer 用于加载对应的分词器 from transformers import AutoModelForCausalLM, AutoTokenizer # 指定模型名称，这里使用 inclusionAI/Ring-lite 模型 model_name = "inclusionAI/Ring-lite" # 加载预训练模型 # torch_dtype="auto" 表示自动选择合适的 PyTorch 数据类型 # device_map="auto" 表示自动将模型分配到可用的设备（如 GPU 或 CPU） model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype="auto", device_map="auto" ) # 加载与模型对应的分词器 tokenizer = AutoTokenizer.from_pretrained(model_name) # 定义用户输入的提示文本 prompt = "Give me a short introduction to large language models." # 构建对话消息列表 # 包含系统消息和用户消息 # 系统消息用于设定模型的角色和行为 # 用户消息是用户的输入 messages = [ {"role": "system", "content": "You are Ring, an assistant created by inclusionAI"}, {"role": "user", "content": prompt} ] # 使用分词器的 apply_chat_template 方法将对话消息转换为模型输入格式 # tokenize=False 表示不进行分词 # add_generation_prompt=True 表示添加生成提示，以便模型生成回复 text = tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True ) # 将文本转换为模型输入张量 # return_tensors="pt" 表示返回 PyTorch 张量 # 并将输入张量移动到模型所在的设备上 model_inputs = tokenizer([text], return_tensors="pt").to(model.device) # 使用模型生成回复 # max_new_tokens=8192 表示最多生成 8192 个新 token generated_ids = model.generate( **model_inputs, max_new_tokens=8192 ) # 从生成的 token 中提取模型生成的部分 # 去除输入部分的 token，只保留模型生成的 token generated_ids = [ output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids) ] # 将生成的 token 解码为文本 # skip_special_tokens=True 表示跳过特殊 token（如 <pad>、<eos> 等） response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0] # 输出生成的回复 print(response)

蚂蚁开源 Ring-lite：2.75B 激活参数轻量级推理模型

前言

一、项目概述

二、技术原理

（一）MoE 架构

（二）C3PO 强化学习训练方法

（三）Long-CoT SFT 与 RL 的结合

（四）多领域数据联合训练

三、主要功能

（一）高效推理

（二）轻量级设计

（三）多领域推理

（四）稳定训练

更多推荐文章

相关免费在线工具

四、应用场景

（一）教育领域

（二）科研领域

（三）工业和商业领域

（四）智能助手

（五）医疗领域

五、性能评估

六、快速使用

（一）环境准备

（二）模型下载

（三）模型推理

七、结语

八、项目地址

更多推荐文章

相关免费在线工具

蚂蚁开源 Ring-lite：2.75B 激活参数轻量级推理模型

前言

一、项目概述

二、技术原理

（一）MoE 架构

（二）C3PO 强化学习训练方法

（三）Long-CoT SFT 与 RL 的结合

（四）多领域数据联合训练

三、主要功能

（一）高效推理

（二）轻量级设计

（三）多领域推理

（四）稳定训练

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

四、应用场景

（一）教育领域

（二）科研领域

（三）工业和商业领域

（四）智能助手

（五）医疗领域

五、性能评估

六、快速使用

（一）环境准备

（二）模型下载

（三）模型推理

七、结语

八、项目地址

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具