MiniOneRec 论文解读：生成式推荐框架

摘要

MiniOneRec 是一个开源框架，包含 SID 构建（RQVAE）、SFT（0.5b~7b）和 RL（受限解码 + 混合奖励）。实验证明了 LLM 的 Scaling 特点，模型越大效果越好。从结果来看，对齐 SID 与文本是重要的。

建模框架

框架包含四个主要部分：

Tokenizer（RQVAE）
LLM-text 对齐（利用 LLM 的世界知识）
SFT next token prediction
RL（GRPO）

任务

序列推荐任务。先分词：一个用户 u，有一个时间顺序的历史交互商品序列 Hu=[i1, i2, …, iT]。每个商品 it 通过 RQVAE 编码为一个 3 层的 SID {c0_it, c1_it, c2_it}。后训练：LLM πθ，读取历史序列预测下一个商品。推理的时候使用 k beams search。

Item Tokenization

使用标准 RQVAE。为了避免码本坍缩，使用第一个训练 batch 的 k-means 中心作为 codebook 的初始化码本。代码中实现了 Sinkhorn-Knopp algorithm（LC-Rec 也做了），这也是缓解码本坍缩的 trick。

Align with LLM

对齐 LLM 世界知识和 SID 信号。

任务一：序列推荐任务
任务二：对齐 SID 和文本描述任务

注：GitHub 中更新了新技术 GPR-inspired SFT with Value-Aware Fine-Tuning (VAFT)，实现了基于模拟物品价值的加权损失，但目前无实验结果。

RL with verifiable rewards (RLVR)

混合动态采样（SID 空间小，容易采样到相同的 SID）
稀疏排序信号

混合动态采样方法：论文提到 over-sample 疯狂采样构造不重复集合，以及 beam search。最终方法采用 beam search。稀疏排序信号：用 NDCG 作为奖励，如果是正确商品，分数再加 1。

训练细节

商品描述：Qwen3-Embedding-4B 编码
分词器：RQVAE，单卡训练，batchsize=20480，lr=1e-3，epochs=10000
SFT：AdamW，Qwen2.5-Instruct。8 卡训练，单卡 batchsize=128，10 epochs+early stop（patience=1），lr=3e-4，cosine decay。
RL：GRPO，2 epoch，KL 权重β不变=0.1，lr=1e-5，batchsize=512
推理：beam search width=16

评估

数据集：亚马逊 Office+Industrial。指标：HitRate + NDCG。

Scaling：训练 + 评估损失随模型增大而减小。
Baseline 对比：LLM 系列和非 LLM 系列对比，说明世界知识重要；Ours 和 LLM 系列对比，说明 RL 重要。

Transferability

SID pattern discovery 实验：在 Industrial 上训练，在 Office 上评估，证明 RL 的有效性。未做 SFT 是因为 SFT 容易领域过拟合影响迁移。

消融实验

Language-SID 的重要性
- 不做 language-SID 对齐
- 做 language-SID 对齐，但不 SFT 推荐任务，只在 RL 上做推荐任务
- SFT 只做推荐任务，RL 做 language-SID 对齐

MiniOneRec 论文解读：生成式推荐框架