MiniOneRec 开源推荐框架论文解读
解读了 MiniOneRec 开源推荐框架,该框架结合 SID 构建(RQVAE)、SFT(0.5b~7b)与 RL(受限解码 + 混合奖励)。核心内容包括序列推荐任务的 SID 分词、LLM 世界知识与 SID 信号的对齐、以及基于 GRPO 的强化学习优化。实验表明模型具备 Scaling 特性,且对齐 SID-text 至关重要。训练细节涵盖 Qwen 系列模型、AdamW 优化器及特定超参数配置。评估显示 RL 相比 SFT 具有更好的迁移能力,Beam Search 采样策略优于 TopK,NDCG 奖励设计有效避免了 Reward Hacking。








