
PPO-VLA:强化学习如何提升机器人泛化能力
清华大学研究对比了监督微调(SFT)与强化学习(PPO)在视觉语言动作(VLA)模型上的表现。研究发现,PPO 能显著提升模型在语义理解和执行鲁棒性方面的分布外泛化能力,最高提升达 42.6%。相比 SFT 的模仿瓶颈,RL 通过试错学习更本质的技能。研究还提出了高效的 PPO-VLA 训练方案,包括共享骨干架构、预热策略及最小更新轮次,在单卡上即可高效微调…
博客作者
必有回响
308
已发布文章
8.3K
博客获赞
448K
博客浏览
第 3 页

清华大学研究对比了监督微调(SFT)与强化学习(PPO)在视觉语言动作(VLA)模型上的表现。研究发现,PPO 能显著提升模型在语义理解和执行鲁棒性方面的分布外泛化能力,最高提升达 42.6%。相比 SFT 的模仿瓶颈,RL 通过试错学习更本质的技能。研究还提出了高效的 PPO-VLA 训练方案,包括共享骨干架构、预热策略及最小更新轮次,在单卡上即可高效微调…
Stable Diffusion 文生图核心管线。流程包括:文本经 CLIP 编码为语义向量,初始化高斯噪声进入潜空间,U-Net 在文本条件下迭代去噪,最后由 VAE 解码为像素图像。重点解析了潜空间扩散的优势、Cross-Attention 机制及调度器作用。

详细记录了树莓派 4B 与大疆 M300 RTK 无人机的硬件连接与软件开发流程。涵盖 E-Port 套件选型、USB-TTL 及同轴线连接方式、树莓派系统环境搭建(OpenCV、FFmpeg 等依赖)、USB Gadget 模式配置脚本编写、Payload SDK 3.11.0 版本的应用参数配置及编译运行。同时提供了 UART 波特率选择、VID/PID…

腾讯推出 WorkBuddy、QClaw、CodeBuddy 三款 Claw 系 AI Agent 产品。WorkBuddy 定位企业办公中台,侧重安全合规与企微集成;QClaw 面向个人用户,支持微信直连与远程操控;CodeBuddy 专注编程场景,提供 IDE 插件与 Craft 模式。三者基于不同技术底座,分别覆盖办公、助手、开发领域。选型需根据身份与…

对比了 Cursor、GitHub Copilot 和 Claude Code 三款主流 AI 编程工具。从产品定位看,Cursor 是 AI 原生 IDE,Copilot 侧重代码补全生态,Claude Code 则是终端 Agent。功能上,Claude Code 上下文窗口最大(200K),SWE-bench 得分最高;Cursor 支持多模型切换与…
Toonflow AI 短剧工厂是一款基于 AI 驱动的短剧创作平台,由 HBAI-Ltd 团队开发。它利用大语言模型和图像生成技术,实现从小说文本到视频的全流程自动化。核心功能包括智能角色生成、自动化剧本生成、分镜制作及视频合成。项目采用 TypeScript、JavaScript 和 Node.js 构建,支持 Docker 部署及本地运行。适用于短视频…

介绍 Flutter 第三方库 ethereum_addresses 的使用。该库专注于以太坊地址的标准化校验与 EIP-55 Checksum 计算。文章涵盖原理分析、安装步骤、核心 API(如 isValidEthereumAddress)详解及实际应用场景。通过示例代码展示了如何在应用中实现地址指纹审计与可视化监控,帮助开发者构建安全可靠的 Web3…
Claude Code 中 CLAUDE.md 配置文件的项目级与全局级区别、优先级规则及加载时机。文章指出项目级规则覆盖全局级,并建议在会话初始化、文件操作时按需加载。同时提供了书写规范,包括使用明确指令词、分级组织规则、配置 paths 元数据以减少 Token 消耗,以及何时选择单文件 CLAUDE.md 或多文件 rules 文件夹的最佳实践。
介绍 DeepSeek-OCR-WEBUI 的部署流程与使用指南。涵盖环境准备、Docker 镜像拉取启动、Web 界面操作及 API 调用示例。通过提示词控制实现文本识别、表格还原及图表解析等功能。解决了传统 OCR 精度低、多语言支持弱的问题,提供零代码级别的文档处理方案,并包含常见问题排查与性能优化建议。

基于 WebGoat 靶场讲解 JWT 逻辑越权漏洞。第六关演示了利用 alg:none 绕过签名验证实现提权;第十一关结合时间戳与无签名攻击获取他人身份令牌。文章解析了 JWT 结构、签名机制及 Cookie 修改方法,帮助理解认证缺陷。

介绍 LazyLLM 框架下多 Agent 大模型应用的构建流程。涵盖架构解析、豆包文本模型的源码部署配置、WebModule 可视化界面启动及多维度部署验证。通过环境准备、依赖安装、API 密钥配置及服务测试,展示了从零到可用的全链路操作,帮助开发者降低开发门槛并实现高效的大模型应用落地。
GitHub Copilot 学生认证需完成双重认证、使用.edu 邮箱及提交有效学生证明。常见问题包括材料信息不全、定位不符及代理冲突。建议关闭代理申请,确保 IP 与定位一致,并提前测试邮箱验证。

基于真实开发体验,分享如何利用 GitHub Copilot 改变工作流。内容涵盖快速生成样板代码、自动编写单元测试、智能调试等核心场景,并通过数据对比分析效率提升情况。文章还介绍了集成 Copilot 到工作流的步骤、高级用法(如数据库优化、API 设计),以及避坑指南,强调在利用 AI 速度的同时保持人工审查与批判性思考,以实现高效且高质量的开发。

对比了瑞芯微 RK3588 搭配 AI 算力卡方案与英伟达 Jetson 平台。RK3588 采用 8nm 工艺,集成 6TOPS NPU,配合 PCIe 扩展可达 32TOPS,功耗仅 5W,能效比高,适合边缘计算、工业质检等场景,成本显著低于 Jetson Thor。Jetson Thor 算力更强(约 5168 TOPS),但功耗高、成本高,适合复杂…
汇总了面向无人机视觉任务的大规模多场景标注数据集,涵盖地理农业、智慧城市、基础设施巡检及灾害监测等领域。数据支持 VOC/YOLO 检测格式与 LabelMe 分割格式,包含路面损坏、建筑缺陷、农作物识别、红外热成像等多种目标检测与分割资源,为遥感、安防、农业等行业的算法研发提供数据基础。
探讨前端代码分割与懒加载技术。通过减少初始加载时间和优化资源利用,提升大型应用性能。对比了未分割代码的弊端与 React.lazy、Webpack 配置的正确实践。介绍了基于路由和条件的懒加载方案,强调需根据实际场景平衡策略,避免过度优化影响体验。
在AMD显卡上部署llama.cpp Vulkan后端的完整流程,涵盖问题诊断、驱动优化、编译配置及性能调优。内容包含常见故障识别、Vulkan信息检查命令、CMake编译参数设置、运行时配置文件示例以及基准测试方法。通过调整驱动版本、启用AMD兼容性选项、优化内存管理和计算策略,可有效解决初始化失败、加载卡顿及性能异常问题,显著提升推理速度和降低延迟。

OIIOII 是一款专注于 AI 动画创作的平台,通过 AI 多智能体协作系统还原专业动画制作分工。核心特色包括一站式虚拟团队(艺术总监、编剧等)、五大创作模式(剧情短片、AMV 等)以及全局资产记忆库和结构化通信机制解决角色一致性问题。实际使用流程简单,支持从创意到成片的自动化生成。目前处于内测阶段,存在分镜衔接等优化空间,适合自媒体创作者及 AI 爱好者…

对比了 Xilinx 7 系列、AXI Memory Mapped 和 XDMA 三种 PCIe IP 核的区别与适用场景。详细解析了 Virtex-7 FPGA Gen3 Integrated Block for PCI Express v4.3 的数据信号接口(如 tdata/tuser),包括命令下发、波形传输及采集数据上传的流程。介绍了 IP 核配置…
演示如何使用 Augment Code 配合 Axure 设计稿自动生成 Vue3 前端项目。通过对比 Cursor 方案,分析 Augment Code 在还原度和自动化方面的优势。步骤包括导出 Axure HTML 至本地、整合至 Vue3 项目结构、配置依赖及路由,最后通过特定指令让 AI 生成页面代码并处理常见错误。