论文阅读:MiniOneRec

github仓库:https://github.com/AkaliKong/MiniOneRec
技术报告论文:https://arxiv.org/abs/2510.24431

找了一个论文阅读辅助工具:https://www.alphaxiv.org/

代码

https://github.com/AkaliKong/MiniOneRec

SFT在做什么

前置:数据集

代码路径:MiniOneRec/data.py

类Tokenizer:给普通的分词器多包装了一层,可以处理连续的bos/eos的特殊字符串。

SidSFTDataset

多样化的指令
任务:输入用户最近交互过的item列表,预测用户下一个交互的item

SidItemFeatDataset

sid2title或者title2sid任务

FusionSeqRecDataset

带意图识别的商品推荐
代码

代码入口:MiniOneRec/sft.py
1、运行train.py,传入要训练的主干llm即base_model
2、传入SID token,MiniOneRec是传入到了普通tokens中,而非special tokens中。
3、MiniOneRec考虑是否冻结LLM自带的token的emb和各种参数,只训练新传入的SID 的token emb。
4、处理数据集,有三种类型:SidSFTDataset、SidItemFeatDataset、FusionSeqRecDataset。
5、训练

TokenExtender: SID

SID索引示例:MiniOneRec/data/Amazon/index/Industrial_and_Scientific.index.json
是一个json文件,{"0": ["<a_236>", "<b_231>", "<c_226>"], "1": ["<a_42>", "<b_80>", "<c_160>"],...
indices是一个字典,如indices["0"]=["<a_236>", "<b_231>", "<c_226>"]
函数get_new_tokens返回self.new_tokens,就是返回SID的子token集合。【但是代码存在问题,它读取的所有实体的SID的token集合,而不是码本的token集合。但是码本很有可能不是所有索引token都会被利用(码本坍塌之类的),部分没见过的实体可能会被分配到目前没有分配到的SID索引token上。】

如何只对新token的emb做训练

先冻结所有参数,然后打开embedding参数的required_grad,然后通过register_hook来控制哪些token的梯度保留
embedding_layer.weight[:original_vocab_size].requires_grad=False是不行的,因为不能直接对张量(Tensor)的切片(Slice)设置 requires_grad 属性。
print("Freezing LLM parameters, only training new token embeddings")for param in model.parameters(): param.requires_grad =Falseif sid_index_path and os.path.exists(sid_index_path)and new_tokens: embedding_layer = model.get_input_embeddings()if embedding_layer.weight.shape[0]> original_vocab_size: embedding_layer.weight.requires_grad =Truedefmask_grad(grad):# grad shape: [vocab_size, hidden_dim] grad[:original_vocab_size].zero_()return grad embedding_layer.weight.register_hook(mask_grad)print(f"Unfrozen {len(new_tokens)} new token embeddings "f"(indices {original_vocab_size} to {len(tokenizer)-1})")

RL在做什么

代码入口:MiniOneRec/rl.py

数据集

SidDataset:输入用户历史交互的item SID序列,预测下一个item的SID
RLTitle2SidDataset:title2sid和description2sid任务,返回prompt-completion pairs
RLSeqTitle2SidDataset:输入用户交互序列(带title)来预测下一个item的SID。

奖励模型

SASRec。

MiniOneRec: An Open-Source Framework for Scaling Generative Recommendation

摘要

做了一个框架:SID构建(RQVAE)+SFT(0.5b~7b)+RL(受限解码+混合奖励)
实验证明了llm的Scaling特点,模型越大越好。
从图上来看,对齐SID-text是挺重要的。

在这里插入图片描述

Introduction/Related Work 略

Modeling

框架:
1、tokenizer(RQVAE)
2、LLM-text 对齐(利用llm的世界知识)
3、SFT next token prediction
4、RL(GRPO)

在这里插入图片描述

Task

序列推荐任务
先分词:一个用户u,有一个时间顺序的历史交互商品序列Hu=[i1,i2, …, iT]。每个商品iti_tit​通过RQVAE编码为一个3层的SID {c0it,c1it,c2it}\{c_0^{i_t},c_1^{i_t},c_2^{i_t} \}{c0it​​,c1it​​,c2it​​}。
后训练:LLM πθ\pi_{\theta}πθ​,读取历史序列预测下一个商品。推理的时候k beams search。

Item Tokenization

标准RQVAE
为了避免码本坍缩使用第一个训练batch的k-means中心作为codebook的初始化码本【我直接聚类也很有用】
论文里没写,但是我看代码里有Sinkhorn-Knopp algorithm代码(LC-Rec也做了),这也是缓解码本坍缩的trick。

Align with LLM

对齐LLM世界知识和SID信号。
任务一:序列推荐任务
任务二:对齐SID和文本描述任务。

实际上在github里更新了新技术:
GPR-inspired SFT with Value-Aware Fine-Tuning (VAFT): implements weighted loss based on simulated item value
https://github.com/AkaliKong/MiniOneRec/blob/main/sft_gpr.py
相当于每条样本有一个数值表示好坏,然后对损失做加权。
但是没有实验结果,不知道好不好。
TODO: 做实验比较结果

RL with verifiable rewards (RLVR)

1、混合动态采样(SID空间小,容易采样到相同的SID)
2、稀疏排序信号

混合动态采样采样:
论文说了两个方法。方法1是over-samplef疯狂采,然后构造一个SID样本尽量不重复的集合。方法2是beam search。它的最终方法是beam search,没用上方法1。

稀疏排序信号
用NDCG作为奖励 如果是正确商品,分数再加1

训练

商品描述:Qwen3-Embedding-4B编码
分词器:RQVAE 单卡训练,batchsize=20480,lr=1e-3,epochs=10000
SFT:AdamW,Qwen2.5-Instruct。8卡训练,单卡batchsize=128,10 epochs+early stop(patience=1),lr=3e-4,cosine decay。
RL:GRPO,2epoch,KL权重β不变=0.1,lr=1e-5,batchsize=512
推理:beam search width=16

评估

亚马逊数据集Office+Industrial。hitrate+NDCG作为指标。

1、Scaling:训练+评估损失:模型越大损失越小
2、baseline对比:LLM系列和非LLM系列对比,说明世界知识的重要;Ours和LLM系列对比,说明RL的重要

在这里插入图片描述

Transferablity

SID pattern discovery实验:在Industrial上训在Office上评估
证明RL的有效
没做SFT是因为SFT很容易领域过拟合影响迁移。

在这里插入图片描述

消融

language-SID的重要性:
1、不做language-SID对齐
2、做language-SID对齐,但不SFT 推荐任务,只在RL上做推荐任务
3、SFT只做推荐任务,RL做language-SID对齐(那还做推荐任务吗?没说清楚)

在这里插入图片描述


采样:
1、直接topk
2、采1.5倍budget+筛选
3、beamsearch:最好

奖励设计:
1、01奖励
2、SASRec模型 logits 【效果很差 reward hacking,SASRec协同信息和推荐信息不一致】
3、NDCG

在这里插入图片描述

是否预训练:【还是预训练的好】

在这里插入图片描述

代码

sft_gpr

https://github.com/AkaliKong/MiniOneRec/blob/main/sft_gpr.py
GPR-inspired SFT with Value-Aware Fine-Tuning (VAFT): implements weighted loss based on simulated item value

Read more

基于FPGA的组合逻辑设计深度剖析

以下是对您提供的博文《基于FPGA的组合逻辑设计深度剖析》的 全面润色与专业重构版本 。本次优化严格遵循您的核心要求: ✅ 彻底消除AI生成痕迹,语言自然、老练、有“人味”——像一位在Xilinx/Intel一线调过千块板子、带过数十个FPGA项目的资深工程师在和你面对面聊技术; ✅ 打破模板化结构(无“引言/概述/总结”等刻板标题),以真实工程问题为锚点,层层递进、环环相扣; ✅ 技术细节不缩水,反而更扎实:补充了LUT映射实测数据、毛刺成因的晶体管级类比、UART中编码器的真实时序角色、以及为什么“ always_comb 不是银弹”; ✅ 所有代码均重审可综合性、仿真鲁棒性与综合工具友好度(Vivado 2023.2 / Quartus Prime 22.4); ✅ 删除所有空泛结语与口号式升华,结尾落在一个具体、可复现、有启发性的调试现场——让读者合上页面就想打开Vivado跑一跑。 当你的UART接收器总在115200bps下丢字节:一场关于组合逻辑“确定性”的硬核复盘 去年冬天,

基于分布式光纤声波传感(DAS)的无人机入侵探测技术与应用

基于分布式光纤声波传感(DAS)的无人机入侵探测技术与应用

一、背景概述 随着无人机技术的普及,其在航拍、巡检、物流等领域发挥积极作用的同时,也带来了“低空入侵”与“非法飞行”等安全隐患。在机场、军事设施、能源基础设施及重要园区等重点区域,传统的雷达、视频或无线电监测手段在低空、隐身性、小目标**场景下仍存在一定局限。 分布式光纤声波传感系统(Distributed Acoustic Sensing,DAS)作为一种被动式、长距离、连续监测的感知技术,为无人机入侵预警提供了新的技术路径。 二、DAS 在无人机入侵监测中的基本原理 DAS 系统利用相干光时域反射原理,将普通通信光纤转化为沿线连续分布的振动与声波传感单元。当无人机在目标区域低空飞行、起降或悬停时,会在地面及周围结构中产生可被感知的物理扰动,包括: * 旋翼气流引起的地面微振动 * 无人机起降过程中的冲击与共振 * 低空飞行产生的特征性声波信号 这些信号通过光纤传导至 DAS 主机,经过高速采集与数字信号处理,可实现实时感知与精确定位。 三、无人机入侵场景下的 DAS 监测模式

飞书机器人接入Seedance 2.0的5大国产化陷阱(ARM架构适配失败?国密SM4签名验签异常?)——20年中间件专家亲测避坑手册

第一章:飞书机器人接入Seedance 2.0国产化集成全景概览 飞书机器人作为企业级协同平台的关键扩展能力,与 Seedance 2.0 国产化低代码平台的深度集成,标志着政企数字化基础设施向自主可控、安全高效迈出实质性一步。该集成覆盖身份认证、消息路由、数据同步、权限管控四大核心维度,全面适配麒麟V10、统信UOS操作系统及达梦DM8、人大金仓KingbaseES等国产数据库栈。 集成架构特征 * 采用双向Webhook+OAuth2.0混合鉴权机制,规避明文凭证传输风险 * 所有API通信强制启用国密SM4加密与SM2签名验证 * 机器人事件回调地址部署于Kubernetes集群内网Service,通过Ingress TLS 1.3暴露 关键配置步骤 在Seedance 2.0管理后台完成飞书机器人接入需执行以下操作: 1. 进入【系统集成】→【外部机器人】→【新增飞书机器人】 2. 填写飞书开放平台获取的App ID、App Secret及Verification Token 3. 启用「国产化环境适配开关」,自动加载SM系列加解密中间件 典型回调处理

立创开源智能家居键盘SmartKB32_v2:基于ESP32-S3的蓝牙/有线双模多功能控制器设计详解

立创开源智能家居键盘SmartKB32_v2:基于ESP32-S3的蓝牙/有线双模多功能控制器设计详解 最近在做一个智能家居控制的项目,发现市面上的键盘要么功能太单一,要么自定义程度不够。比如很多客制化键盘虽然有旋钮,但基本只能调音量,而且旋钮都在右边,用起来不太顺手。于是我就琢磨着,能不能自己做一把既能当键盘用,又能控制智能设备,还能根据不同的软件切换快捷键的“全能型”键盘? 这就是今天要跟大家分享的 SmartKB32_v2。它基于性能强劲的ESP32-S3芯片,不仅支持蓝牙和有线双模连接,还内置了Web服务器,可以通过网页随时修改按键功能。更酷的是,它左侧集成了一个带屏幕和力反馈的智能旋钮,配合SD卡存储的“映射表”,可以一键切换成设计师模式、游戏模式或者智能家居控制模式。 无论你是想复刻这个项目的创客,还是对ESP32-S3开发、HID设备(键盘鼠标这类人机交互设备)设计感兴趣的工程师,这篇文章都会带你从硬件到软件,把它的设计思路和实现方法讲清楚。 1. 项目核心功能与设计思路 1.1 为什么要做这样一把键盘? 很多朋友可能和我有一样的痛点:用不同的设计软件(比如