Diffusion Transformer(DiT)——将扩散过程中的U-Net换成ViT:近频繁用于视频生成与机器人动作预测(含清华Prediction with Action详解)

Diffusion Transformer(DiT)——将扩散过程中的U-Net换成ViT:近频繁用于视频生成与机器人动作预测(含清华Prediction with Action详解)

前言 本文最开始属于此文《视频生成Sora的全面解析:从AI绘画、ViT到ViViT、TECO、DiT、VDT、NaViT等》 但考虑到DiT除了广泛应用于视频生成领域中,在机器人动作预测也被运用的越来越多,加之DiT确实是一个比较大的创新,影响力大,故独立成本文 第一部分 Diffusion Transformer(DiT):将扩散过程中的U-Net 换成ViT 1.1 什么是DiT 1.1.1 DiT:在VAE框架之下扩散去噪中的卷积架构换成Transformer架构 在ViT之前,图像领域基本是CNN的天下,包括扩散过程中的噪声估计器所用的U-net也是卷积架构,但随着ViT的横空出世,人们自然而然开始考虑这个噪声估计器可否用Transformer架构来代替 2022年12月,William Peebles(当时在UC Berkeley,Peebles在𝕏上用昵称Bill,在Linkedin上及论文署名时用大名William)、Saining Xie(当时在纽约大学)的两人通过论文《Scalable Diffusion Models with Trans

第十章:HIL-SERL算法真实机器人训练实战

第十章:HIL-SERL算法真实机器人训练实战

引言 在机器人学习领域,如何让机器人在真实环境中快速、安全地学习复杂任务一直是一个重要挑战。传统的强化学习方法往往需要大量的试错过程,这在真实机器人上既耗时又存在安全风险。而纯粹的模仿学习虽然安全,但往往难以处理训练数据中未见过的情况。 HIL-SERL(Human-in-the-Loop Sample-Efficient Reinforcement Learning,人在环路样本高效强化学习)为这一问题提供了一个优雅的解决方案。这种方法巧妙地结合了人类演示、在线学习和人工干预,能够在短短几个小时内训练出高性能的机器人策略。 本章将详细介绍如何使用 LeRobot 框架实践 HIL-SERL ,帮助读者掌握在真实机器人上进行强化学习训练的完整流程。 10.1 HIL-SERL 方法概述 HIL-SERL 是一种样本高效的强化学习算法,它将人类演示与在线学习和人工干预相结合。该方法从少量人类演示开始,使用这些演示训练奖励分类器(reward classifier),然后采用演员-学习者( actor-learner)架构,在策略执行过程中允许人类干预,以指导探索并纠正不安全的

Stable Diffusion XL 1.0开源大模型实战:灵感画廊GPU显存友好型部署指南

Stable Diffusion XL 1.0开源大模型实战:灵感画廊GPU显存友好型部署指南 "见微知著,凝光成影。将梦境的碎片,凝结为永恒的视觉诗篇。" 你是否曾经梦想过拥有一个属于自己的艺术创作空间?一个不需要复杂技术背景,只需轻轻描述心中所想,就能让AI帮你将梦境转化为精美画作的地方?今天我要介绍的"灵感画廊"就是这样一个神奇的工具。 基于Stable Diffusion XL 1.0打造,这个创作终端不仅技术强大,更重要的是它极其友好——无论是对创作者还是对你的电脑硬件。即使只有8GB显存的GPU,也能流畅运行,生成1024x1024高清画质。接下来,我将手把手带你搭建这个艺术创作空间。 1. 环境准备与快速部署 在开始之前,我们先来看看需要准备什么。整个过程比想象中简单很多,不需要复杂的配置,只需要几个简单的步骤。 1.1 系统要求与依赖安装 首先确保你的环境满足以下要求: * NVIDIA显卡(建议8GB以上显存) * Python 3.8或更高版本

极客日志

程序员进阶一站式社区

Latest

XILINX PCIE IP核详解、FPGA实现及仿真全流程(Virtex-7 FPGA Gen3 Integrated Block for PCI Express v4.3)

XILINX PCIE IP核详解、FPGA实现及仿真全流程(Virtex-7 FPGA Gen3 Integrated Block for PCI Express v4.3)

一、XILINX几种IP核区别         传统系列芯片 IP核名称核心特点用户接口开发难度适用场景7 Series Integrated Block for PCI Express最基础的PCIe硬核,提供物理层和数据链路层AXI4-Stream TLP包最高,需处理TLP包需深度定制PCIe通信,对资源敏感的项目AXI Memory Mapped To PCI Express桥接IP,将PCIe接口转换为AXI接口AXI4内存映射中等,类似操作总线FPGA需主动读写主机内存,平衡效率与灵活性DMA/Bridge Subsystem for PCI Express (XDMA)集成DMA引擎,提供"一站式"解决方案AXI4 (另有AXI-Lite等辅助接口)最低,官方提供驱动高速数据批量传输(如采集卡),追求开发效率         注意:         1.硬件平台限制:不同系列的Xilinx FPGA(如7系列、UltraScale、Versal)支持的PCIe代数和通道数可能不同。在选择IP核前,请务必确认您的FPGA型号是否支持所需的PCIe配置(

OpenClaw 完整部署指南:安装 + 三大 Coding Plan 配置 + CC Switch + 飞书机器人

OpenClaw 完整部署指南:安装 + 三大 Coding Plan 配置 + CC Switch + 飞书机器人

OpenClaw 完整部署指南:安装 + 三大 Coding Plan 配置 + CC Switch + 飞书机器人 * 📋 文章目录结构 * 1.3 一键安装 OpenClaw(推荐) * 1.4 通过 npm 手动安装 * 1.5 运行 Onboard 向导 * 1.6 验证安装 * 步骤二:配置 Coding Plan 模型 * 🅰️ 选项 A:阿里百炼 Coding Plan * A.1 订阅与获取凭证 * A.2 在 OpenClaw 中配置 * A.3 可用模型列表

Java 大视界 -- Java 大数据在智能家居能源消耗趋势预测与节能策略优化中的应用(433)

Java 大视界 -- Java 大数据在智能家居能源消耗趋势预测与节能策略优化中的应用(433)

Java 大视界 -- Java 大数据在智能家居能源消耗趋势预测与节能策略优化中的应用(433) * 引言: * 正文: * 一、智能家居能源管理的核心痛点与 Java 大数据的价值 * 1.1 行业核心痛点(基于《2024 中国智能家居行业白皮书》) * 1.2 Java 大数据的核心价值(实战验证适配性) * 二、技术架构设计实战(纵向架构图) * 2.1 核心技术栈选型(生产压测验证版) * 2.2 关键技术亮点(博主实战总结) * 三、核心场景实战(附完整可运行代码) * 3.1 场景一:能耗趋势预测(线性回归 + LSTM 融合模型) * 3.1.1 业务需求 * 3.1.

Rokid 手势识别技术深度解析:解锁 AR 无接触交互的核心秘密

Rokid 手势识别技术深度解析:解锁 AR 无接触交互的核心秘密

引言 在聊手势识别前,咱们先搞清楚:Rokid是谁?它为啥能把AR手势做得这么自然? Rokid是国内AR(增强现实)领域的“老兵”了,从2014年成立就盯着一个目标——让AR走进日常。你可能见过它的产品:能戴在脸上的“AR眼镜”Max Pro、能揣在兜里的“AR主机”Station 2、适合专业场景的“Station Pro”,这些设备不是用来“炫技”的,而是想让咱们摆脱手机、手柄的束缚,直接用手“摸”虚拟东西。 而手势识别,就是Rokid给AR设备装的“最自然的遥控器”——比如调大虚拟屏幕像捏橡皮一样捏合手指,翻页像翻书一样挥手。但不同设备、不同开发需求,需要搭配不同版本的SDK(软件开发工具包),这就像“不同型号的手机要装对应版本的APP”。 一、基础认知:先选对版本,避免开发走弯路 Rokid手势识别技术随SDK版本迭代持续优化,不同版本适配的Unity(开发工具)

基于深度学习YOLO算法+qwen deepseek大模型的无人机河道巡检系统平台 支持AI对话与文档生成分析

基于深度学习YOLO算法+qwen deepseek大模型的无人机河道巡检系统平台 支持AI对话与文档生成分析

YOLO+DeepSeek河道环境检测系统 项目简介 基于改进YOLO深度学习模型与DeepSeek大语言模型的河道环境智能检测与分析系统。本系统采用先进的计算机视觉技术,结合自然语言处理能力,实现对河道环境中各类目标的高精度检测与智能分析。系统支持单张图片、批量图片、视频文件及实时摄像头等多种输入方式,提供从环境检测到智能建议的完整解决方案,为河道治理、环境保护与水资源管理提供智能化技术支持。 ✨ 核心亮点 • 多场景检测支持:全面覆盖单张图片、图片文件夹、视频文件、实时摄像头四种输入方式 • 改进YOLO模型:基于YOLOv5/v8/v11/v12的优化版本,专注河道环境目标检测 • AI智能分析:集成DeepSeek/Qwen大模型,生成专业的河道环境分析与治理建议 • 实时处理反馈:前端实时展示检测进度与结果,支持实时视频流处理 • 完整技术栈:PyTorch深度学习 + SpringBoot后端 + Vue3前端 + Flask中台的完整架构 • 开箱即用:提供完整源码、预训练模型与详细部署文档,快速上手使用 🌊 检测对象范围 系统可精准识别河道

FPGA光通信2——Aurora 64B/66B的开发使用

FPGA光通信2——Aurora 64B/66B的开发使用

可参考GZH:小蘇的FPGA         FPGA光通信的开发过程中,最简便的方式为Aurora 64B66B,开发人员无需关注2bit同步头,加解扰等过程,开放给开发人员的主要是AXI-Stream用户数据接口。         Aurora是一款可扩展的轻量级、高数据速率链路层高速串行通信协议,支持全双工或单工,支持64B/66B,8B/10B编码。 一、Aurora 64B/66B使用介绍         该核的使用架构主要如下:借助xilinx 核,开发人员可根据用户接口实现多通道间的光通信。最大支持16lane。 1.1 、IP核的介绍         参考PG074, 该核的内部结构如下:         其中,Lane logic:每个GT收发器由一个lane逻辑模块实例驱动,初始化每个收发器,处理控制字符的编解码,并执行错误检测。         Global logic: 全局逻辑模块执行通道绑定以进行通道初始化。在运行过程中,该通道跟踪Aurora 64B/66B协议定义的Not Ready空闲字符,并监控所有通道逻辑模块的错误。

基于改进粒子群算法的多无人机协同航迹规划(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭:行百里者,半于九十。  ⛳️赠与读者 👨‍💻做科研,涉及到一个深在的思想系统,需要科研者逻辑缜密,踏实认真,但是不能只是努力,很多时候借力比努力更重要,然后还要有仰望星空的创新点和启发点。当哲学课上老师问你什么是科学,什么是电的时候,不要觉得这些问题搞笑。哲学是科学之母,哲学就是追究终极问题,寻找那些不言自明只有小孩子会问的但是你却回答不出来的问题。建议读者按目录次序逐一浏览,免得骤然跌入幽暗的迷宫找不到来时的路,它不足为你揭示全部问题的答案,但若能让人胸中升起一朵朵疑云,也未尝不会酿成晚霞斑斓的别一番景致,万一它居然给你带来了一场精神世界的苦雨,那就借机洗刷一下原来存放在那儿的“躺平”上的尘埃吧。      或许,雨过云收,神驰的天地更清朗.......🔎🔎🔎 💥1 概述 基于改进粒子群算法的多无人机协同航迹规划是一种利用优化算法解决复杂问题的方法,它旨在为多架无人机(UAV

Verilog 零基础入门:语法、仿真与 FPGA 实战

一、入门前提 Verilog 是 FPGA 开发的核心硬件描述语言,学习需具备两大基础:一是数字电子技术常识(理解逻辑门、时序 / 组合逻辑等概念),二是 C 语言基础(有助于快速适应语法结构)。学习核心是掌握 “代码→硬件” 的映射逻辑,而非单纯记忆语法。 二、仿真环境选择 根据开发场景选择适配环境,需重点注意路径约束: * FPGA 开发环境:Xilinx Vivado(主流推荐)、Xilinx ISE(已停更)、Intel Quartus II * ASIC 开发环境:Synopsys VCS * 关键约束:电脑用户名、软件安装路径、工程路径必须全英文(无中文 / 特殊符号),否则会导致软件启动失败、编译报错或仿真异常。 三、Verilog 设计流程

5分钟部署通义千问3-14B:ollama-webui双模式一键启动指南

5分钟部署通义千问3-14B:ollama-webui双模式一键启动指南 1. 引言 1.1 业务场景描述 在当前大模型应用快速落地的背景下,开发者和企业对高性能、低成本、易部署的本地化推理方案需求日益增长。尤其在资源有限的单卡环境下,如何实现接近30B级别模型的推理能力,成为技术选型的关键挑战。 通义千问Qwen3-14B的开源为这一难题提供了极具吸引力的解决方案。其148亿参数全激活Dense架构,在FP8量化下仅需14GB显存即可运行,RTX 4090等消费级显卡即可全速推理,真正实现了“单卡可跑、双模式切换、长上下文支持”的工程目标。 1.2 痛点分析 传统大模型部署存在三大痛点: * 显存占用高:多数14B以上模型fp16加载需超24GB显存,难以在消费级GPU运行 * 部署复杂:依赖vLLM、TGI等服务框架,配置繁琐,调试成本高 * 功能单一:缺乏灵活的推理模式切换机制,无法兼顾质量与延迟 现有方案如直接使用HuggingFace Transformers或vLLM虽性能强劲,但对新手不够友好,且难以快速验证效果。 1.3 方案预告 本文将介绍

Clawdbot Web Chat平台惊艳效果:支持思维链(CoT)可视化、推理步骤高亮展示

Clawdbot Web Chat平台惊艳效果:支持思维链(CoT)可视化、推理步骤高亮展示 1. 一眼就懂的思维链体验:不是“黑箱输出”,而是“看得见的思考” 你有没有试过问一个AI问题,它直接甩给你一段答案,但你完全不知道它是怎么想出来的?就像考试时只看到最终答案,却看不到解题过程——既难验证对错,也难学以致用。 Clawdbot Web Chat平台彻底改变了这一点。它不只告诉你“是什么”,更清晰地展示“为什么”和“怎么一步步得出的”。当你输入一个问题,比如“请分析这组销售数据的趋势并给出建议”,页面上立刻出现带编号的推理步骤:从识别时间范围、计算同比变化、发现异常波动,到最终提出库存优化建议——每一步都独立成行、自动高亮,像一位资深分析师在你眼前边写边讲。 这不是简单的分段换行,而是真正基于Qwen3:32B大模型原生支持的思维链(Chain-of-Thought, CoT)能力实现的结构化输出。系统会主动将长推理过程拆解为逻辑连贯的子步骤,并通过前端动态渲染,让每一步都可读、可定位、

Clawdbot Web网关配置深度解析:Qwen3:32B Ollama API对接关键点

Clawdbot Web网关配置深度解析:Qwen3:32B Ollama API对接关键点 1. 为什么需要Web网关这一层 你可能已经部署好了Qwen3:32B,也跑通了Ollama的本地API,但直接把Ollama服务暴露给前端?这在实际工程中几乎从不这么做。Clawdbot选择通过Web网关来对接大模型,不是为了增加复杂度,而是解决几个真实存在的问题。 首先,Ollama默认只监听本地回环地址(127.0.0.1),前端页面根本连不上。其次,浏览器同源策略会拦截跨域请求,而Ollama原生不支持CORS头。再者,生产环境需要统一的请求入口、日志记录、限流熔断和身份校验——这些Ollama本身并不提供。 Clawdbot的Web网关就承担了这个“翻译官+守门人”的角色:它把前端发来的标准HTTP请求,转换成Ollama能理解的格式;把Ollama返回的流式响应,重新包装成前端友好的结构;同时悄悄加上鉴权、超时控制和错误重试。整个过程对用户完全透明,你看到的只是一个流畅的聊天界面。 这不是过度设计,而是把一个实验室玩具,变成真正可交付产品的必经之路。 2. 端口映射

【Java Web学习 | 第四篇】CSS(3) -背景

【Java Web学习 | 第四篇】CSS(3) -背景

🌈个人主页: Hygge_Code🔥热门专栏:从0开始学习Java | Linux学习| 计算机网络💫个人格言: “既然选择了远方,便不顾风雨兼程” 文章目录 * CSS背景样式全解析🥝 * 4.1 背景颜色 (`background-color`) * 4.2 背景图片 (`background-image`) * 4.3 背景平铺 (`background-repeat`) * 4.4 背景图片位置 (`background-position`) * 4.5 背景图像固定 (`background-attachment`) * 4.6 背景属性复合写法 * 4.7 背景色半透明 (`rgba`) * 综合代码演示 * 学习资源推荐🐦‍🔥 CSS背景样式全解析🥝 在网页设计中,背景样式是塑造页面视觉效果的关键元素之一。通过CSS的背景属性,我们可以为页面添加丰富的视觉效果,包括背景颜色、背景图片、平铺方式、定位以及固定等。