MiniOneRec 论文解读:生成式推荐框架
摘要
MiniOneRec 是一个开源框架,包含 SID 构建(RQVAE)、SFT(0.5b~7b)和 RL(受限解码 + 混合奖励)。实验证明了 LLM 的 Scaling 特点,模型越大效果越好。从结果来看,对齐 SID 与文本是重要的。
建模框架
框架包含四个主要部分:
- Tokenizer(RQVAE)
- LLM-text 对齐(利用 LLM 的世界知识)
- SFT next token prediction
- RL(GRPO)
任务
序列推荐任务。先分词:一个用户 u,有一个时间顺序的历史交互商品序列 Hu=[i1, i2, …, iT]。每个商品 it 通过 RQVAE 编码为一个 3 层的 SID {c0_it, c1_it, c2_it}。后训练:LLM πθ,读取历史序列预测下一个商品。推理的时候使用 k beams search。
Item Tokenization
使用标准 RQVAE。为了避免码本坍缩,使用第一个训练 batch 的 k-means 中心作为 codebook 的初始化码本。代码中实现了 Sinkhorn-Knopp algorithm(LC-Rec 也做了),这也是缓解码本坍缩的 trick。
Align with LLM
对齐 LLM 世界知识和 SID 信号。
- 任务一:序列推荐任务
- 任务二:对齐 SID 和文本描述任务
注:GitHub 中更新了新技术 GPR-inspired SFT with Value-Aware Fine-Tuning (VAFT),实现了基于模拟物品价值的加权损失,但目前无实验结果。
RL with verifiable rewards (RLVR)
- 混合动态采样(SID 空间小,容易采样到相同的 SID)
- 稀疏排序信号
混合动态采样方法:论文提到 over-sample 疯狂采样构造不重复集合,以及 beam search。最终方法采用 beam search。 稀疏排序信号:用 NDCG 作为奖励,如果是正确商品,分数再加 1。
训练细节
- 商品描述:Qwen3-Embedding-4B 编码
- 分词器:RQVAE,单卡训练,batchsize=20480,lr=1e-3,epochs=10000
- SFT:AdamW,Qwen2.5-Instruct。8 卡训练,单卡 batchsize=128,10 epochs+early stop(patience=1),lr=3e-4,cosine decay。
- RL:GRPO,2 epoch,KL 权重β不变=0.1,lr=1e-5,batchsize=512
- 推理:beam search width=16
评估
数据集:亚马逊 Office+Industrial。指标:HitRate + NDCG。
- Scaling:训练 + 评估损失随模型增大而减小。
- Baseline 对比:LLM 系列和非 LLM 系列对比,说明世界知识重要;Ours 和 LLM 系列对比,说明 RL 重要。
Transferability
SID pattern discovery 实验:在 Industrial 上训练,在 Office 上评估,证明 RL 的有效性。未做 SFT 是因为 SFT 容易领域过拟合影响迁移。
消融实验
-
Language-SID 的重要性
- 不做 language-SID 对齐
- 做 language-SID 对齐,但不 SFT 推荐任务,只在 RL 上做推荐任务
- SFT 只做推荐任务,RL 做 language-SID 对齐

