论文阅读：MiniOneRec

优质文章学习记录

11 Apr 2026 — 6 min read

github仓库：https://github.com/AkaliKong/MiniOneRec
技术报告论文：https://arxiv.org/abs/2510.24431

找了一个论文阅读辅助工具：https://www.alphaxiv.org/

代码

https://github.com/AkaliKong/MiniOneRec

SFT在做什么

前置：数据集

代码路径：MiniOneRec/data.py

类Tokenizer：给普通的分词器多包装了一层，可以处理连续的bos/eos的特殊字符串。

SidSFTDataset

多样化的指令
任务：输入用户最近交互过的item列表，预测用户下一个交互的item

SidItemFeatDataset

sid2title或者title2sid任务

FusionSeqRecDataset

带意图识别的商品推荐

代码

代码入口：MiniOneRec/sft.py
1、运行train.py，传入要训练的主干llm即base_model
2、传入SID token，MiniOneRec是传入到了普通tokens中，而非special tokens中。
3、MiniOneRec考虑是否冻结LLM自带的token的emb和各种参数，只训练新传入的SID 的token emb。
4、处理数据集，有三种类型：SidSFTDataset、SidItemFeatDataset、FusionSeqRecDataset。
5、训练

TokenExtender: SID

SID索引示例：MiniOneRec/data/Amazon/index/Industrial_and_Scientific.index.json
是一个json文件，{"0": ["<a_236>", "<b_231>", "<c_226>"], "1": ["<a_42>", "<b_80>", "<c_160>"],...
indices是一个字典，如indices["0"]=["<a_236>", "<b_231>", "<c_226>"]
函数get_new_tokens返回self.new_tokens，就是返回SID的子token集合。【但是代码存在问题，它读取的所有实体的SID的token集合，而不是码本的token集合。但是码本很有可能不是所有索引token都会被利用（码本坍塌之类的），部分没见过的实体可能会被分配到目前没有分配到的SID索引token上。】

如何只对新token的emb做训练

先冻结所有参数，然后打开embedding参数的required_grad，然后通过register_hook来控制哪些token的梯度保留
embedding_layer.weight[:original_vocab_size].requires_grad=False是不行的，因为不能直接对张量（Tensor）的切片（Slice）设置 requires_grad 属性。

print("Freezing LLM parameters, only training new token embeddings")for param in model.parameters(): param.requires_grad =Falseif sid_index_path and os.path.exists(sid_index_path)and new_tokens: embedding_layer = model.get_input_embeddings()if embedding_layer.weight.shape[0]> original_vocab_size: embedding_layer.weight.requires_grad =Truedefmask_grad(grad):# grad shape: [vocab_size, hidden_dim] grad[:original_vocab_size].zero_()return grad embedding_layer.weight.register_hook(mask_grad)print(f"Unfrozen {len(new_tokens)} new token embeddings "f"(indices {original_vocab_size} to {len(tokenizer)-1})")

RL在做什么

代码入口：MiniOneRec/rl.py

数据集

SidDataset：输入用户历史交互的item SID序列，预测下一个item的SID
RLTitle2SidDataset：title2sid和description2sid任务，返回prompt-completion pairs
RLSeqTitle2SidDataset：输入用户交互序列（带title）来预测下一个item的SID。

奖励模型

SASRec。

MiniOneRec: An Open-Source Framework for Scaling Generative Recommendation

摘要

做了一个框架：SID构建（RQVAE）+SFT（0.5b~7b）+RL（受限解码+混合奖励）
实验证明了llm的Scaling特点，模型越大越好。
从图上来看，对齐SID-text是挺重要的。

Introduction/Related Work 略

Modeling

框架：
1、tokenizer（RQVAE）
2、LLM-text 对齐（利用llm的世界知识）
3、SFT next token prediction
4、RL（GRPO）

Task

序列推荐任务
先分词：一个用户u，有一个时间顺序的历史交互商品序列Hu=[i1,i2, …, iT]。每个商品iti_tit通过RQVAE编码为一个3层的SID {c0it,c1it,c2it}\{c_0^{i_t},c_1^{i_t},c_2^{i_t} \}{c0it,c1it,c2it}。
后训练：LLM πθ\pi_{\theta}πθ，读取历史序列预测下一个商品。推理的时候k beams search。

Item Tokenization

标准RQVAE
为了避免码本坍缩使用第一个训练batch的k-means中心作为codebook的初始化码本【我直接聚类也很有用】
论文里没写，但是我看代码里有Sinkhorn-Knopp algorithm代码（LC-Rec也做了），这也是缓解码本坍缩的trick。

Align with LLM

对齐LLM世界知识和SID信号。
任务一：序列推荐任务
任务二：对齐SID和文本描述任务。

实际上在github里更新了新技术：
GPR-inspired SFT with Value-Aware Fine-Tuning (VAFT): implements weighted loss based on simulated item value
https://github.com/AkaliKong/MiniOneRec/blob/main/sft_gpr.py
相当于每条样本有一个数值表示好坏，然后对损失做加权。
但是没有实验结果，不知道好不好。
TODO: 做实验比较结果

RL with verifiable rewards (RLVR)

1、混合动态采样（SID空间小，容易采样到相同的SID）
2、稀疏排序信号

混合动态采样采样：
论文说了两个方法。方法1是over-samplef疯狂采，然后构造一个SID样本尽量不重复的集合。方法2是beam search。它的最终方法是beam search，没用上方法1。

稀疏排序信号
用NDCG作为奖励如果是正确商品，分数再加1

训练

商品描述：Qwen3-Embedding-4B编码
分词器：RQVAE 单卡训练，batchsize=20480，lr=1e-3，epochs=10000
SFT：AdamW，Qwen2.5-Instruct。8卡训练，单卡batchsize=128,10 epochs+early stop（patience=1），lr=3e-4，cosine decay。
RL：GRPO，2epoch，KL权重β不变=0.1，lr=1e-5，batchsize=512
推理：beam search width=16

评估

亚马逊数据集Office+Industrial。hitrate+NDCG作为指标。

1、Scaling：训练+评估损失：模型越大损失越小
2、baseline对比：LLM系列和非LLM系列对比，说明世界知识的重要；Ours和LLM系列对比，说明RL的重要

Transferablity

SID pattern discovery实验：在Industrial上训在Office上评估
证明RL的有效
没做SFT是因为SFT很容易领域过拟合影响迁移。

消融

language-SID的重要性：
1、不做language-SID对齐
2、做language-SID对齐，但不SFT 推荐任务，只在RL上做推荐任务
3、SFT只做推荐任务，RL做language-SID对齐（那还做推荐任务吗？没说清楚）

采样：
1、直接topk
2、采1.5倍budget+筛选
3、beamsearch：最好

奖励设计：
1、01奖励
2、SASRec模型 logits 【效果很差 reward hacking，SASRec协同信息和推荐信息不一致】
3、NDCG

是否预训练：【还是预训练的好】

代码

sft_gpr

https://github.com/AkaliKong/MiniOneRec/blob/main/sft_gpr.py
GPR-inspired SFT with Value-Aware Fine-Tuning (VAFT): implements weighted loss based on simulated item value

基于FPGA的组合逻辑设计深度剖析

以下是对您提供的博文《基于FPGA的组合逻辑设计深度剖析》的全面润色与专业重构版本。本次优化严格遵循您的核心要求： ✅ 彻底消除AI生成痕迹，语言自然、老练、有“人味”——像一位在Xilinx/Intel一线调过千块板子、带过数十个FPGA项目的资深工程师在和你面对面聊技术； ✅ 打破模板化结构（无“引言/概述/总结”等刻板标题），以真实工程问题为锚点，层层递进、环环相扣； ✅ 技术细节不缩水，反而更扎实：补充了LUT映射实测数据、毛刺成因的晶体管级类比、UART中编码器的真实时序角色、以及为什么“ always_comb 不是银弹”； ✅ 所有代码均重审可综合性、仿真鲁棒性与综合工具友好度（Vivado 2023.2 / Quartus Prime 22.4）； ✅ 删除所有空泛结语与口号式升华，结尾落在一个具体、可复现、有启发性的调试现场——让读者合上页面就想打开Vivado跑一跑。当你的UART接收器总在115200bps下丢字节：一场关于组合逻辑“确定性”的硬核复盘去年冬天，

基于分布式光纤声波传感（DAS）的无人机入侵探测技术与应用

一、背景概述随着无人机技术的普及，其在航拍、巡检、物流等领域发挥积极作用的同时，也带来了“低空入侵”与“非法飞行”等安全隐患。在机场、军事设施、能源基础设施及重要园区等重点区域，传统的雷达、视频或无线电监测手段在低空、隐身性、小目标**场景下仍存在一定局限。分布式光纤声波传感系统（Distributed Acoustic Sensing，DAS）作为一种被动式、长距离、连续监测的感知技术，为无人机入侵预警提供了新的技术路径。二、DAS 在无人机入侵监测中的基本原理 DAS 系统利用相干光时域反射原理，将普通通信光纤转化为沿线连续分布的振动与声波传感单元。当无人机在目标区域低空飞行、起降或悬停时，会在地面及周围结构中产生可被感知的物理扰动，包括： * 旋翼气流引起的地面微振动 * 无人机起降过程中的冲击与共振 * 低空飞行产生的特征性声波信号这些信号通过光纤传导至 DAS 主机，经过高速采集与数字信号处理，可实现实时感知与精确定位。三、无人机入侵场景下的 DAS 监测模式

飞书机器人接入Seedance 2.0的5大国产化陷阱（ARM架构适配失败？国密SM4签名验签异常？）——20年中间件专家亲测避坑手册

第一章：飞书机器人接入Seedance 2.0国产化集成全景概览飞书机器人作为企业级协同平台的关键扩展能力，与 Seedance 2.0 国产化低代码平台的深度集成，标志着政企数字化基础设施向自主可控、安全高效迈出实质性一步。该集成覆盖身份认证、消息路由、数据同步、权限管控四大核心维度，全面适配麒麟V10、统信UOS操作系统及达梦DM8、人大金仓KingbaseES等国产数据库栈。集成架构特征 * 采用双向Webhook+OAuth2.0混合鉴权机制，规避明文凭证传输风险 * 所有API通信强制启用国密SM4加密与SM2签名验证 * 机器人事件回调地址部署于Kubernetes集群内网Service，通过Ingress TLS 1.3暴露关键配置步骤在Seedance 2.0管理后台完成飞书机器人接入需执行以下操作： 1. 进入【系统集成】→【外部机器人】→【新增飞书机器人】 2. 填写飞书开放平台获取的App ID、App Secret及Verification Token 3. 启用「国产化环境适配开关」，自动加载SM系列加解密中间件典型回调处理

立创开源智能家居键盘SmartKB32_v2：基于ESP32-S3的蓝牙/有线双模多功能控制器设计详解

立创开源智能家居键盘SmartKB32_v2：基于ESP32-S3的蓝牙/有线双模多功能控制器设计详解最近在做一个智能家居控制的项目，发现市面上的键盘要么功能太单一，要么自定义程度不够。比如很多客制化键盘虽然有旋钮，但基本只能调音量，而且旋钮都在右边，用起来不太顺手。于是我就琢磨着，能不能自己做一把既能当键盘用，又能控制智能设备，还能根据不同的软件切换快捷键的“全能型”键盘？这就是今天要跟大家分享的 SmartKB32_v2。它基于性能强劲的ESP32-S3芯片，不仅支持蓝牙和有线双模连接，还内置了Web服务器，可以通过网页随时修改按键功能。更酷的是，它左侧集成了一个带屏幕和力反馈的智能旋钮，配合SD卡存储的“映射表”，可以一键切换成设计师模式、游戏模式或者智能家居控制模式。无论你是想复刻这个项目的创客，还是对ESP32-S3开发、HID设备（键盘鼠标这类人机交互设备）设计感兴趣的工程师，这篇文章都会带你从硬件到软件，把它的设计思路和实现方法讲清楚。 1. 项目核心功能与设计思路 1.1 为什么要做这样一把键盘？很多朋友可能和我有一样的痛点：用不同的设计软件（比如

代码