【具身智能】具身机器人VLA算法入门及实战(一):具身智能系统及VLA

【具身智能】具身机器人VLA算法入门及实战(一):具身智能系统及VLA

具身机器人VLA算法入门及实战(一):具身智能系统及VLA

一、常见具身智能系统

二、具身智能数据获取方式

在这里插入图片描述
在这里插入图片描述

数据获取平台: Isaac Sim, Isaac Gym, Mujoco, 桃园 2.0

数据增强平台: RoboVerse, Genie Studio, DexMimicGen

三、具身智能-感知系统

在这里插入图片描述

四、具身智能学习方式

在这里插入图片描述
在这里插入图片描述

五、工业机器人及应用需求

在这里插入图片描述
在这里插入图片描述


在这里插入图片描述

六、VLA架构及开源项目

6.1 VLA架构

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6.2 开源项目

  • 智元机器人(远征A1)
    • EI-Brain框架
      • 云端超脑(任务级)+大脑(任务级+技能级)+小脑(指令级)+脑干(伺服级)
    • 由人形机器人(上海)有限公司、国家地方共建人形机器人创新中心与开放原子开源基金会(OpenAtom Foundation)共同运营的开源项目。本仓库提供了一套基于 MPC 与 WBC 的仿人机器人控制框架,可部署在 Mujoco 仿真平台上。基于国家地方共建人形机器人创新中心“青龙”机器人模型,提供行走、跳跃、盲踩障碍物三种运动示例,在实物样机上实现了机器人的行走盲踩障碍两种运动。
    • 项目特点
      • 易部署 提供全面的代码运行环境部署解决方案,以便用户能够轻松配置其所需的工作环境,本代码仓库包含了主要依赖,无需进行众多第三方库的安装,简化整个部署过程。
      • 可扩展 控制框架结构采用分层模块化设计,旨在提高系统的可维护性和可扩展性,系统各功能模块在逻辑和功能上具有明确的界限,为二次开发提供了更加友好的环境,使开发人员能够更轻松地对系统进行功能定制和扩展。
      • 易理解 代码结构简洁,遵循针对功能进行模块封装的代码设计原则,应用总线进行模块间数据交互,减少封装冗余,有助于降低代码复杂度;算法实现采用“读取-计算-写入”的简单逻辑,提高代码的可理解性。
    • 开源地址:https://github.com/loongOpen
    • 项目详情:https://github.com/loongOpen/OpenLoong/
  • UMI(Stanford)
  • DexCap(Stanford)
    • 灵巧手+模仿学习+扩散策略

Openloong(青龙)

在这里插入图片描述

七、机器人操作案例

在这里插入图片描述
在这里插入图片描述

Read more

最新版 springdoc-openapi-starter-webmvc-ui 常用注解详解 + 实战示例

当然可以!在 Spring Boot 3 + SpringDoc OpenAPI(Swagger 3 替代方案)生态中,springdoc-openapi-starter-webmvc-ui 是目前官方推荐的集成方式。它提供了一套丰富的注解,用于精细化控制 API 文档的生成,提升前端、测试、产品等协作方的体验。 ✅ 最新版 springdoc-openapi-starter-webmvc-ui 常用注解详解 + 实战示例 📌 当前最新稳定版本:springdoc-openapi 2.5+(2025年仍适用) 📌 所有注解位于包:io.swagger.v3.oas.annotations.* 🧩 一、核心注解概览 注解作用适用位置@OpenAPIDefinition全局 API 信息配置(标题、版本、联系人等)@Configuration 类@Tag标记 Controller 或方法所属的“标签/

Android WebRTC 视频通话开发实战:从零搭建到性能调优

快速体验 在开始今天关于 Android WebRTC 视频通话开发实战:从零搭建到性能调优 的探讨之前,我想先分享一个最近让我觉得很有意思的全栈技术挑战。 我们常说 AI 是未来,但作为开发者,如何将大模型(LLM)真正落地为一个低延迟、可交互的实时系统,而不仅仅是调个 API? 这里有一个非常硬核的动手实验:基于火山引擎豆包大模型,从零搭建一个实时语音通话应用。它不是简单的问答,而是需要你亲手打通 ASR(语音识别)→ LLM(大脑思考)→ TTS(语音合成)的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学来说,这是个绝佳的练手项目。 从0到1构建生产级别应用,脱离Demo,点击打开 从0打造个人豆包实时通话AI动手实验 Android WebRTC 视频通话开发实战:从零搭建到性能调优 移动端P2P视频通话的三大挑战 开发Android端视频通话应用时,我们常遇到几个核心难题: * NAT穿透/NAT Traversal:

乡村政务办公系统信息管理系统源码-SpringBoot后端+Vue前端+MySQL【可直接运行】

乡村政务办公系统信息管理系统源码-SpringBoot后端+Vue前端+MySQL【可直接运行】

摘要 随着信息技术的快速发展,数字化政务管理成为提升乡村治理效率的重要手段。传统的乡村政务办公模式依赖纸质文档和人工操作,存在效率低、信息传递滞后、数据易丢失等问题。乡村政务信息管理系统的建设能够有效解决这些问题,实现政务信息的数字化、规范化和高效化管理。该系统通过整合SpringBoot后端、Vue前端和MySQL数据库技术,构建了一个功能完善、操作便捷的乡村政务办公平台。关键词:乡村政务、数字化管理、SpringBoot、Vue、MySQL。 该系统采用SpringBoot作为后端框架,提供高效的接口服务和数据处理能力;Vue作为前端框架,实现用户友好的交互界面;MySQL作为数据库,确保数据的稳定存储和高效查询。系统功能涵盖村民信息管理、帮扶信息管理、新闻公告发布等模块,支持数据的增删改查、多条件筛选和统计分析。系统设计注重实用性和可扩展性,能够满足乡村政务办公的多样化需求。关键词:村民信息管理、帮扶信息管理、新闻公告、数据统计分析。 数据表设计 村民信息数据表 村民信息数据表用于存储村民的基本信息,包括姓名、身份证号、联系方式等。创建时间通过函数自动获取,村民ID是该

3步搞定通义千问3-14B部署:Ollama+WebUI双buff叠加教程

3步搞定通义千问3-14B部署:Ollama+WebUI双buff叠加教程 1. 为什么Qwen3-14B值得你花5分钟部署 你有没有遇到过这样的困境:想用一个真正能干活的大模型,但发现30B级别的性能动辄要双卡A100,本地跑不动;而能单卡运行的模型,又常常在长文档理解、复杂推理或多语言任务上“掉链子”? Qwen3-14B就是为这个痛点而生的——它不是“缩水版”,而是“精准裁剪版”。148亿参数全激活(非MoE稀疏结构),却在C-Eval、MMLU、GSM8K等权威榜单上交出接近30B模型的答卷。更关键的是,它原生支持128k上下文,实测轻松处理40万汉字的PDF报告、法律合同或技术白皮书,一次喂入,整篇理解。 它不靠参数堆砌,而是靠架构优化和训练策略升级:FP8量化后仅14GB显存占用,在RTX 4090(24GB)上就能全速推理,每秒生成80个token;同时提供两种推理模式——你可以让它“慢思考”,显式输出<think>中的逻辑链,专攻数学证明、代码调试、多步推理;也可以一键切到“快回答”