【具身智能】具身机器人VLA算法入门及实战(一):具身智能系统及VLA

【具身智能】具身机器人VLA算法入门及实战(一):具身智能系统及VLA

具身机器人VLA算法入门及实战(一):具身智能系统及VLA

一、常见具身智能系统

二、具身智能数据获取方式

在这里插入图片描述
在这里插入图片描述

数据获取平台: Isaac Sim, Isaac Gym, Mujoco, 桃园 2.0

数据增强平台: RoboVerse, Genie Studio, DexMimicGen

三、具身智能-感知系统

在这里插入图片描述

四、具身智能学习方式

在这里插入图片描述
在这里插入图片描述

五、工业机器人及应用需求

在这里插入图片描述
在这里插入图片描述


在这里插入图片描述

六、VLA架构及开源项目

6.1 VLA架构

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6.2 开源项目

  • 智元机器人(远征A1)
    • EI-Brain框架
      • 云端超脑(任务级)+大脑(任务级+技能级)+小脑(指令级)+脑干(伺服级)
    • 由人形机器人(上海)有限公司、国家地方共建人形机器人创新中心与开放原子开源基金会(OpenAtom Foundation)共同运营的开源项目。本仓库提供了一套基于 MPC 与 WBC 的仿人机器人控制框架,可部署在 Mujoco 仿真平台上。基于国家地方共建人形机器人创新中心“青龙”机器人模型,提供行走、跳跃、盲踩障碍物三种运动示例,在实物样机上实现了机器人的行走盲踩障碍两种运动。
    • 项目特点
      • 易部署 提供全面的代码运行环境部署解决方案,以便用户能够轻松配置其所需的工作环境,本代码仓库包含了主要依赖,无需进行众多第三方库的安装,简化整个部署过程。
      • 可扩展 控制框架结构采用分层模块化设计,旨在提高系统的可维护性和可扩展性,系统各功能模块在逻辑和功能上具有明确的界限,为二次开发提供了更加友好的环境,使开发人员能够更轻松地对系统进行功能定制和扩展。
      • 易理解 代码结构简洁,遵循针对功能进行模块封装的代码设计原则,应用总线进行模块间数据交互,减少封装冗余,有助于降低代码复杂度;算法实现采用“读取-计算-写入”的简单逻辑,提高代码的可理解性。
    • 开源地址:https://github.com/loongOpen
    • 项目详情:https://github.com/loongOpen/OpenLoong/
  • UMI(Stanford)
  • DexCap(Stanford)
    • 灵巧手+模仿学习+扩散策略

Openloong(青龙)

在这里插入图片描述

七、机器人操作案例

在这里插入图片描述
在这里插入图片描述

Read more

openclaw使用llama.cpp 本地大模型部署教程

openclaw使用llama.cpp 本地大模型部署教程

openclaw使用llama.cpp 本地大模型部署教程 本教程基于实际操作整理,适用于 Windows WSL2 环境 全程使用 openclaw 帮我搭建大模型 一、环境准备 1. 硬件要求 显卡推荐模型显存占用GTX 1050 Ti (4GB)Qwen2.5-3B Q4~2.5GBRTX 4060 (8GB)Qwen2.5-7B Q4~5GBRTX 4090 (24GB)Qwen2.5-32B Q4~20GB 2. 安装编译工具(WSL Ubuntu) sudoapt update sudoaptinstall -y cmake build-essential 二、下载和编译 llama.cpp

终极Elden Ring AI绘画指南:从零开始掌握黑暗奇幻艺术创作

终极Elden Ring AI绘画指南:从零开始掌握黑暗奇幻艺术创作 【免费下载链接】elden-ring-diffusion 项目地址: https://ai.gitcode.com/hf_mirrors/nitrosocke/elden-ring-diffusion 想要创作出《艾尔登法环》同款黑暗奇幻风格的艺术作品吗?Elden Ring Diffusion是基于Stable Diffusion架构的AI绘画模型,专门针对《艾尔登法环》游戏的美术风格进行了深度优化。通过本指南,您将快速掌握如何使用这一强大工具,创作出具有魂系美学特色的专业级图像。 快速入门:三步启动你的AI绘画之旅 第一步:环境准备与模型获取 首先需要克隆项目仓库并获取模型文件: git clone https://gitcode.com/hf_mirrors/nitrosocke/elden-ring-diffusion cd elden-ring-diffusion 项目包含完整的模型文件结构,其中eldenRing-v3-pruned.ckpt是核心模型文件,体积仅为4.2GB,比完整版节

Unsloth LLaMA Factory 大语言模型微调工具对比比较 主打极致速度与显存优化*适合单卡/少卡快速迭代 代码/低代码、全场景、多模型兼容**

Unsloth 主打极致速度与显存优化,适合单卡/少卡快速迭代;LLaMA Factory 主打零代码/低代码、全场景、多模型兼容,适合新手与企业级一站式微调。下面从核心定位、性能、功能、上手、适用场景等维度详细对比。 一、核心定位与本质区别 维度UnslothLLaMA Factory核心定位单卡/少卡微调加速引擎,专注性能优化一站式微调平台,全流程、全场景、低门槛设计理念用底层算子优化(Triton)榨干GPU性能封装复杂流程,降低使用门槛,覆盖全训练范式与HF关系兼容HF生态,是加速插件(可嵌入其他框架)基于HF生态构建,是完整训练框架开源协议Apache-2.0Apache-2.0 二、性能对比(单卡场景) 指标UnslothLLaMA Factory训练速度比标准HF快 2–5倍(核心优势)接近标准HF,比Unsloth慢显存占用降低 50%–80%(QLoRA下更明显)降低 ~70%

企业微信集成LangBot通信机器人的实战指南

1. 为什么你需要一个企业微信智能机器人? 如果你在企业里工作,每天是不是都要在微信和企业微信之间来回切换?同事发来一个文件,你得下载、打开、再转发;老板在群里问个数据,你得翻半天聊天记录,或者临时去查系统。更别提那些重复性的问题,比如“公司WiFi密码是多少?”“报销流程怎么走?”,每天回答几十遍,人都麻了。 这就是我想跟你聊聊 LangBot 的原因。它不是一个简单的自动回复工具,而是一个能真正“理解”你说话的通信机器人。你可以把它想象成一位24小时在线、精通公司所有业务的超级助理。把它集成到企业微信里,你的团队就拥有了一个随时待命的智能中枢。 我自己的团队在用了LangBot之后,变化是实实在在的。新员工入职,不用再手把手教,直接@机器人问就行;技术同学排查问题,可以快速让机器人查询历史文档和代码片段;销售同事需要客户资料,一句话就能调出来。它把我们从繁琐的信息查找和重复应答中解放出来,让大家能更专注于创造性的工作。 这个指南,就是把我踩过的坑、试出来的最佳路径,原原本本地分享给你。我会从零开始,带你完成从服务器部署、LangBot安装,到企业微信机器人创建、双向通信调试