论文阅读：MiniOneRec

Ne0inhk

23 Mar 2026 — 6 min read

github仓库：https://github.com/AkaliKong/MiniOneRec
技术报告论文：https://arxiv.org/abs/2510.24431

找了一个论文阅读辅助工具：https://www.alphaxiv.org/

代码

https://github.com/AkaliKong/MiniOneRec

SFT在做什么

前置：数据集

代码路径：MiniOneRec/data.py

类Tokenizer：给普通的分词器多包装了一层，可以处理连续的bos/eos的特殊字符串。

SidSFTDataset

多样化的指令
任务：输入用户最近交互过的item列表，预测用户下一个交互的item

SidItemFeatDataset

sid2title或者title2sid任务

FusionSeqRecDataset

带意图识别的商品推荐

代码

代码入口：MiniOneRec/sft.py
1、运行train.py，传入要训练的主干llm即base_model
2、传入SID token，MiniOneRec是传入到了普通tokens中，而非special tokens中。
3、MiniOneRec考虑是否冻结LLM自带的token的emb和各种参数，只训练新传入的SID 的token emb。
4、处理数据集，有三种类型：SidSFTDataset、SidItemFeatDataset、FusionSeqRecDataset。
5、训练

TokenExtender: SID

SID索引示例：MiniOneRec/data/Amazon/index/Industrial_and_Scientific.index.json
是一个json文件，{"0": ["<a_236>", "<b_231>", "<c_226>"], "1": ["<a_42>", "<b_80>", "<c_160>"],...
indices是一个字典，如indices["0"]=["<a_236>", "<b_231>", "<c_226>"]
函数get_new_tokens返回self.new_tokens，就是返回SID的子token集合。【但是代码存在问题，它读取的所有实体的SID的token集合，而不是码本的token集合。但是码本很有可能不是所有索引token都会被利用（码本坍塌之类的），部分没见过的实体可能会被分配到目前没有分配到的SID索引token上。】

如何只对新token的emb做训练

先冻结所有参数，然后打开embedding参数的required_grad，然后通过register_hook来控制哪些token的梯度保留
embedding_layer.weight[:original_vocab_size].requires_grad=False是不行的，因为不能直接对张量（Tensor）的切片（Slice）设置 requires_grad 属性。

print("Freezing LLM parameters, only training new token embeddings")for param in model.parameters(): param.requires_grad =Falseif sid_index_path and os.path.exists(sid_index_path)and new_tokens: embedding_layer = model.get_input_embeddings()if embedding_layer.weight.shape[0]> original_vocab_size: embedding_layer.weight.requires_grad =Truedefmask_grad(grad):# grad shape: [vocab_size, hidden_dim] grad[:original_vocab_size].zero_()return grad embedding_layer.weight.register_hook(mask_grad)print(f"Unfrozen {len(new_tokens)} new token embeddings "f"(indices {original_vocab_size} to {len(tokenizer)-1})")

RL在做什么

代码入口：MiniOneRec/rl.py

数据集

SidDataset：输入用户历史交互的item SID序列，预测下一个item的SID
RLTitle2SidDataset：title2sid和description2sid任务，返回prompt-completion pairs
RLSeqTitle2SidDataset：输入用户交互序列（带title）来预测下一个item的SID。

奖励模型

SASRec。

MiniOneRec: An Open-Source Framework for Scaling Generative Recommendation

摘要

做了一个框架：SID构建（RQVAE）+SFT（0.5b~7b）+RL（受限解码+混合奖励）
实验证明了llm的Scaling特点，模型越大越好。
从图上来看，对齐SID-text是挺重要的。

Introduction/Related Work 略

Modeling

框架：
1、tokenizer（RQVAE）
2、LLM-text 对齐（利用llm的世界知识）
3、SFT next token prediction
4、RL（GRPO）

Task

序列推荐任务
先分词：一个用户u，有一个时间顺序的历史交互商品序列Hu=[i1,i2, …, iT]。每个商品iti_tit通过RQVAE编码为一个3层的SID {c0it,c1it,c2it}\{c_0^{i_t},c_1^{i_t},c_2^{i_t} \}{c0it,c1it,c2it}。
后训练：LLM πθ\pi_{\theta}πθ，读取历史序列预测下一个商品。推理的时候k beams search。

Item Tokenization

标准RQVAE
为了避免码本坍缩使用第一个训练batch的k-means中心作为codebook的初始化码本【我直接聚类也很有用】
论文里没写，但是我看代码里有Sinkhorn-Knopp algorithm代码（LC-Rec也做了），这也是缓解码本坍缩的trick。

Align with LLM

对齐LLM世界知识和SID信号。
任务一：序列推荐任务
任务二：对齐SID和文本描述任务。

实际上在github里更新了新技术：
GPR-inspired SFT with Value-Aware Fine-Tuning (VAFT): implements weighted loss based on simulated item value
https://github.com/AkaliKong/MiniOneRec/blob/main/sft_gpr.py
相当于每条样本有一个数值表示好坏，然后对损失做加权。
但是没有实验结果，不知道好不好。
TODO: 做实验比较结果

RL with verifiable rewards (RLVR)

1、混合动态采样（SID空间小，容易采样到相同的SID）
2、稀疏排序信号

混合动态采样采样：
论文说了两个方法。方法1是over-samplef疯狂采，然后构造一个SID样本尽量不重复的集合。方法2是beam search。它的最终方法是beam search，没用上方法1。

稀疏排序信号
用NDCG作为奖励如果是正确商品，分数再加1

训练

商品描述：Qwen3-Embedding-4B编码
分词器：RQVAE 单卡训练，batchsize=20480，lr=1e-3，epochs=10000
SFT：AdamW，Qwen2.5-Instruct。8卡训练，单卡batchsize=128,10 epochs+early stop（patience=1），lr=3e-4，cosine decay。
RL：GRPO，2epoch，KL权重β不变=0.1，lr=1e-5，batchsize=512
推理：beam search width=16

评估

亚马逊数据集Office+Industrial。hitrate+NDCG作为指标。

1、Scaling：训练+评估损失：模型越大损失越小
2、baseline对比：LLM系列和非LLM系列对比，说明世界知识的重要；Ours和LLM系列对比，说明RL的重要

Transferablity

SID pattern discovery实验：在Industrial上训在Office上评估
证明RL的有效
没做SFT是因为SFT很容易领域过拟合影响迁移。

消融

language-SID的重要性：
1、不做language-SID对齐
2、做language-SID对齐，但不SFT 推荐任务，只在RL上做推荐任务
3、SFT只做推荐任务，RL做language-SID对齐（那还做推荐任务吗？没说清楚）

采样：
1、直接topk
2、采1.5倍budget+筛选
3、beamsearch：最好

奖励设计：
1、01奖励
2、SASRec模型 logits 【效果很差 reward hacking，SASRec协同信息和推荐信息不一致】
3、NDCG

是否预训练：【还是预训练的好】

代码

sft_gpr

https://github.com/AkaliKong/MiniOneRec/blob/main/sft_gpr.py
GPR-inspired SFT with Value-Aware Fine-Tuning (VAFT): implements weighted loss based on simulated item value

Git推送与拉取：实现本地与远程代码同步（附代码示例）

在团队协作开发中，代码的共享和同步是至关重要的。Git的推送和拉取操作就是实现本地代码与远程仓库代码同步的关键手段。通过推送操作，我们可以将本地的代码更新上传到远程仓库，让团队其他成员能够获取到最新的代码；而拉取操作则可以将远程仓库的代码更新下载到本地，保证本地代码与远程仓库的一致性。接下来，我们将详细介绍Git的推送和拉取操作，包括核心技术点、实操代码示例以及如何解决可能遇到的问题。目录 * 核心技术点：Git的推送和拉取操作 * 推送操作 * 拉取操作 * 实操模块：提供推送和拉取的代码示例 * 推送代码示例 * 拉取代码示例 * 问题解决：解决推送冲突、拉取失败等问题 * 推送冲突 * 拉取失败 * 总结 * 🍃 系列专栏导航核心技术点：Git的推送和拉取操作推送操作 Git的推送操作是将本地仓库中的提交记录上传到远程仓库。在进行推送之前，我们需要先将本地的修改添加到暂存区，然后进行提交，最后才能将提交记录推送到远程仓库。 * 关联远程仓库：在

GitHub 入门教程：如何加入并为开源项目贡献代码

GitHub 入门教程：如何加入并为开源项目贡献代码 GitHub 是全球最大的开源社区之一，是开发者共同协作、共享和贡献代码的重要平台。如果你刚接触开源项目并想参与其中，那么了解如何在 GitHub 上加入并为开源项目贡献代码是非常重要的。本文将带你了解如何使用 GitHub，如何寻找适合自己贡献的开源项目，以及如何为项目提交 Pull Request (PR)，并最终为开源社区做出贡献。无论你是初学者还是有一定开发经验的程序员，本文将为你提供一步一步的指导，帮助你顺利完成开源贡献的过程。通过学习本教程，你将学会如何与全球开发者合作，提高你的编程能力并参与到各种有意义的项目中。文章目录 * GitHub 入门教程：如何加入并为开源项目贡献代码 * 一、GitHub 简介 * 二、创建 GitHub 账户 * 三、如何寻找适合贡献的开源项目 * 1. GitHub Explore 页面 * 2. 使用 GitHub 标签 * 3. 项目主页 * 四、Fork

2025电赛E题开源：二维云台激光打靶系统全解析（基于STM32F407+K230）

2025电赛E题：二维云台激光打靶系统全解析——基于STM32F407的视觉伺服控制本文详细介绍2025年全国大学生电子设计竞赛E题《二维云台激光打靶系统》的完整实现方案。项目基于STM32F407微控制器，结合视觉追踪、PID控制、步进电机驱动等技术，实现高精度的激光自动瞄准与发射功能。 🎯 项目背景与意义在自动化控制领域，视觉伺服系统是实现高精度定位与追踪的关键技术。本次分享的项目，源自 2025 年全国大学生电子设计竞赛的赛题，题目要求设计一套二维云台系统，需具备自动识别目标、控制激光精准命中的功能。该项目历经多重挑战，最终斩获了广东省赛区的省一等奖。由于我在此次比赛中主要负责二维云台激光打靶系统的设计，因此仅针对 25 年电赛 e 题的瞄准模块部分进行解说，自动循迹小车的内容会略过。这个项目的成功落地，既为电子设计竞赛提供了一套完整的参考方案，也为嵌入式视觉伺服系统的教学与研究提供了宝贵的实践案例。 📊 系统总体设计系统架构图二维云台激光打靶系统 ├── 感知层（视觉模块） │ ├── 摄像头采集 │ └── 目标坐标提取 ├── 控制层（主控板

什么是 Logits？Logits 与 Softmax 的关系以及Logits 的使用场景和注意事项：中英双语

什么是 Logits？——全面解析大模型输出的关键在深度学习中，logits 是指在模型的最后一层（通常是全连接层）的原始输出值，尚未经过归一化处理。Logits 是一个非常重要的概念，因为它是模型从中预测最终结果的基础，决定了模型对不同类别的“信心”或“倾向性”。在本篇博客中，我们将深入探讨： 1. Logits 的定义与作用 2. Logits 与 Softmax 的关系 3. 实际案例：从 Logits 到概率分布 4. Logits 的使用场景和注意事项 5. 总结与洞见 1. Logits 的定义与作用什么是 Logits？ Logits 是深度学习模型预测过程中最后一层输出的原始值。它们通常是一个未归一化的实数向量，每个值对应一个类别。Logits 的取值范围可以是正数、负数，甚至非常大或非常小的值。 * 形状：

代码