论文阅读:MiniOneRec

github仓库:https://github.com/AkaliKong/MiniOneRec
技术报告论文:https://arxiv.org/abs/2510.24431

找了一个论文阅读辅助工具:https://www.alphaxiv.org/

代码

https://github.com/AkaliKong/MiniOneRec

SFT在做什么

前置:数据集

代码路径:MiniOneRec/data.py

类Tokenizer:给普通的分词器多包装了一层,可以处理连续的bos/eos的特殊字符串。

SidSFTDataset

多样化的指令
任务:输入用户最近交互过的item列表,预测用户下一个交互的item

SidItemFeatDataset

sid2title或者title2sid任务

FusionSeqRecDataset

带意图识别的商品推荐
代码

代码入口:MiniOneRec/sft.py
1、运行train.py,传入要训练的主干llm即base_model
2、传入SID token,MiniOneRec是传入到了普通tokens中,而非special tokens中。
3、MiniOneRec考虑是否冻结LLM自带的token的emb和各种参数,只训练新传入的SID 的token emb。
4、处理数据集,有三种类型:SidSFTDataset、SidItemFeatDataset、FusionSeqRecDataset。
5、训练

TokenExtender: SID

SID索引示例:MiniOneRec/data/Amazon/index/Industrial_and_Scientific.index.json
是一个json文件,{"0": ["<a_236>", "<b_231>", "<c_226>"], "1": ["<a_42>", "<b_80>", "<c_160>"],...
indices是一个字典,如indices["0"]=["<a_236>", "<b_231>", "<c_226>"]
函数get_new_tokens返回self.new_tokens,就是返回SID的子token集合。【但是代码存在问题,它读取的所有实体的SID的token集合,而不是码本的token集合。但是码本很有可能不是所有索引token都会被利用(码本坍塌之类的),部分没见过的实体可能会被分配到目前没有分配到的SID索引token上。】

如何只对新token的emb做训练

先冻结所有参数,然后打开embedding参数的required_grad,然后通过register_hook来控制哪些token的梯度保留
embedding_layer.weight[:original_vocab_size].requires_grad=False是不行的,因为不能直接对张量(Tensor)的切片(Slice)设置 requires_grad 属性。
print("Freezing LLM parameters, only training new token embeddings")for param in model.parameters(): param.requires_grad =Falseif sid_index_path and os.path.exists(sid_index_path)and new_tokens: embedding_layer = model.get_input_embeddings()if embedding_layer.weight.shape[0]> original_vocab_size: embedding_layer.weight.requires_grad =Truedefmask_grad(grad):# grad shape: [vocab_size, hidden_dim] grad[:original_vocab_size].zero_()return grad embedding_layer.weight.register_hook(mask_grad)print(f"Unfrozen {len(new_tokens)} new token embeddings "f"(indices {original_vocab_size} to {len(tokenizer)-1})")

RL在做什么

代码入口:MiniOneRec/rl.py

数据集

SidDataset:输入用户历史交互的item SID序列,预测下一个item的SID
RLTitle2SidDataset:title2sid和description2sid任务,返回prompt-completion pairs
RLSeqTitle2SidDataset:输入用户交互序列(带title)来预测下一个item的SID。

奖励模型

SASRec。

MiniOneRec: An Open-Source Framework for Scaling Generative Recommendation

摘要

做了一个框架:SID构建(RQVAE)+SFT(0.5b~7b)+RL(受限解码+混合奖励)
实验证明了llm的Scaling特点,模型越大越好。
从图上来看,对齐SID-text是挺重要的。

在这里插入图片描述

Introduction/Related Work 略

Modeling

框架:
1、tokenizer(RQVAE)
2、LLM-text 对齐(利用llm的世界知识)
3、SFT next token prediction
4、RL(GRPO)

在这里插入图片描述

Task

序列推荐任务
先分词:一个用户u,有一个时间顺序的历史交互商品序列Hu=[i1,i2, …, iT]。每个商品iti_tit​通过RQVAE编码为一个3层的SID {c0it,c1it,c2it}\{c_0^{i_t},c_1^{i_t},c_2^{i_t} \}{c0it​​,c1it​​,c2it​​}。
后训练:LLM πθ\pi_{\theta}πθ​,读取历史序列预测下一个商品。推理的时候k beams search。

Item Tokenization

标准RQVAE
为了避免码本坍缩使用第一个训练batch的k-means中心作为codebook的初始化码本【我直接聚类也很有用】
论文里没写,但是我看代码里有Sinkhorn-Knopp algorithm代码(LC-Rec也做了),这也是缓解码本坍缩的trick。

Align with LLM

对齐LLM世界知识和SID信号。
任务一:序列推荐任务
任务二:对齐SID和文本描述任务。

实际上在github里更新了新技术:
GPR-inspired SFT with Value-Aware Fine-Tuning (VAFT): implements weighted loss based on simulated item value
https://github.com/AkaliKong/MiniOneRec/blob/main/sft_gpr.py
相当于每条样本有一个数值表示好坏,然后对损失做加权。
但是没有实验结果,不知道好不好。
TODO: 做实验比较结果

RL with verifiable rewards (RLVR)

1、混合动态采样(SID空间小,容易采样到相同的SID)
2、稀疏排序信号

混合动态采样采样:
论文说了两个方法。方法1是over-samplef疯狂采,然后构造一个SID样本尽量不重复的集合。方法2是beam search。它的最终方法是beam search,没用上方法1。

稀疏排序信号
用NDCG作为奖励 如果是正确商品,分数再加1

训练

商品描述:Qwen3-Embedding-4B编码
分词器:RQVAE 单卡训练,batchsize=20480,lr=1e-3,epochs=10000
SFT:AdamW,Qwen2.5-Instruct。8卡训练,单卡batchsize=128,10 epochs+early stop(patience=1),lr=3e-4,cosine decay。
RL:GRPO,2epoch,KL权重β不变=0.1,lr=1e-5,batchsize=512
推理:beam search width=16

评估

亚马逊数据集Office+Industrial。hitrate+NDCG作为指标。

1、Scaling:训练+评估损失:模型越大损失越小
2、baseline对比:LLM系列和非LLM系列对比,说明世界知识的重要;Ours和LLM系列对比,说明RL的重要

在这里插入图片描述

Transferablity

SID pattern discovery实验:在Industrial上训在Office上评估
证明RL的有效
没做SFT是因为SFT很容易领域过拟合影响迁移。

在这里插入图片描述

消融

language-SID的重要性:
1、不做language-SID对齐
2、做language-SID对齐,但不SFT 推荐任务,只在RL上做推荐任务
3、SFT只做推荐任务,RL做language-SID对齐(那还做推荐任务吗?没说清楚)

在这里插入图片描述


采样:
1、直接topk
2、采1.5倍budget+筛选
3、beamsearch:最好

奖励设计:
1、01奖励
2、SASRec模型 logits 【效果很差 reward hacking,SASRec协同信息和推荐信息不一致】
3、NDCG

在这里插入图片描述

是否预训练:【还是预训练的好】

在这里插入图片描述

代码

sft_gpr

https://github.com/AkaliKong/MiniOneRec/blob/main/sft_gpr.py
GPR-inspired SFT with Value-Aware Fine-Tuning (VAFT): implements weighted loss based on simulated item value

Read more

2026最新保姆级教程:手把手教你零基础安装与配置本地 AI 智能体 OpenClaw

2026最新保姆级教程:手把手教你零基础安装与配置本地 AI 智能体 OpenClaw

文章目录 * 前言 * 一、下载并安装 OpenClaw * 二、启动配置向导与绑定 AI 大脑 * 1. 启动向导 * 2. 确认账户类型 * 3. 选择快速入门模式 * 4. 选择大模型 (AI 大脑) * 5. 选择 API 接口区域 * 6. 填入你的专属 API Key * 三、连接通讯渠道 (Telegram) * 1. 选择 Telegram * 2. 绑定机器人的 Token * 第四步:安装扩展插件与重启服务 * 1. 技能插件 (Skills) * 2. 附加功能 (Hooks) * 3. 重启并应用配置 * 第五步:设备安全授权与最终测试 (见证奇迹!) * 1.

万字长文|迈向电商大模型时代,从虚拟试穿到电商AIGC

万字长文|迈向电商大模型时代,从虚拟试穿到电商AIGC

作者:高继航 1 前言 2025年,虚拟试衣已成为电商行业不可或缺的核心环节,从技术落地到商业变现,全行业都在加速布局这一赛道。什么是虚拟试衣?其背后的核心技术方案有哪些?国内外电商大厂又有哪些典型实践案例?如何突破技术瓶颈,打造更贴合用户需求的试穿体验?电商平台又该如何构建完整的AIGC能力矩阵? 本文分享将基于京东零售视觉与AIGC部负责人李岩(Jason Li)博士在AICon2025的演讲内容整理呈现,深度拆解虚拟试衣的技术逻辑、行业实践与未来趋势,解锁电商AIGC的全域布局思路。 内容围绕以下板块展开:首先解析虚拟试穿的定义与分类;其次回顾虚拟试穿的技术发展历程;随后深度拆解行业内主流虚拟试衣产品的核心能力;再介绍京东在虚拟试穿领域的探索及实践沉淀的实践经验;在此基础上,分享京东零售AIGC布局的全景图;最后探讨虚拟试衣及电商AIGC行业的未来发展趋势。 2 虚拟试穿的定义与分类 虚拟试穿的底层逻辑可概括为A+B=AB,其中A指模特的图片或视频,B则是服饰图。通过视觉生成技术将服饰“穿”到模特身上,最终以静态或动态效果呈现给用户,核心要求是保证模特

ToDesk重磅更新, 硬核-ToClaw AI 实现科技新闻日报自动化实战

ToDesk重磅更新, 硬核-ToClaw AI 实现科技新闻日报自动化实战

一、前言 最近发现ToDesk悄悄更新,直接内置了 ToClaw 龙虾AI,真的格外惊喜!之前看中轻量化OpenClaw却被繁琐的本地部署、代码搭建劝退,如今不用任何前置准备,打开就能用。刚好我想做一款省心的每日科技新闻自动播报工具,省去手动搜资讯的麻烦,索性直接实测,从功能上手、实操任务到同类对比,全程分享真实体验,不吹不黑,看看这款桌面AI助手到底好不好用。 二、界面与入口 最新版ToDesk的 ToClaw 入口设在首页醒目位置,我下载的是4.8.7.1版本。 不用翻找多级菜单,打开就能快速定位,上手零难度,点开直接进入交互界面,操作极简高效。 启动ToClaw后会自动生成专属悬浮窗,支持全局一键唤醒,不管是办公、整理文件还是使用其他软件,都能随时呼出AI,不用切换界面,日常使用便捷度拉满,实测顺手不耽误手头操作。 三、核心架构 简单说下ToClaw的底层逻辑,OpenClaw并非独立运算模型,而是轻量化交互载体,负责衔接用户与AI核心算力,不占用过多内存,这也是它轻量化的关键,所有智能处理全靠底层内核支撑,

魔因漫创实战教程:集成中转平台实现低成本AI漫画视频创作

魔因漫创实战教程:集成中转平台实现低成本AI漫画视频创作

魔因漫创实战教程:集成中转平台实现低成本AI漫画视频创作 引言 在AI内容创作领域,魔因漫创(Moyin Creator) 是一款强大的AI漫画与视频生成工具,能够将小说或剧本自动转化为精美的视觉内容。然而,官方API的高昂成本往往让个人创作者望而却步。 本文将教你如何通过集成中转API平台,将创作成本降低数倍! 读完本文,你将学会: * 如何配置魔音漫创使用第三方中转API * 多Key轮询配置技巧,提升稳定性 * 各功能模块的模型选型建议 * 从剧本到成片的完整 workflow 目录 * 一、环境准备与工具下载 * 二、API供应商配置(核心步骤) * 三、模型配置建议 * 四、项目创建与剧本导入 * 五、角色与场景生成 * 六、AI导演生成视频 * 七、导出成品 * 八、常见问题与避坑指南 * 总结与扩展 一、环境准备与工具下载 1.1 下载魔音漫创客户端 首先前往官方GitHub仓库下载最新版本: 🔗 官方GitHub地址: https://github.com/