本周,CVPR 2024 正在美国西雅图拉开序幕。今年 CVPR 论文投稿数再次创下新纪录,显示了该领域研究的火热程度。
从研究主题来看,**具身智能(Embodied AI)**这一大热点值得关注。黄仁勋在 COMPUTEX 大会开幕前夕的演讲中预言:AI 的下一个浪潮将是物理 AI。即那些理解物理定律的 AI 机器人,尤其是人形机器人最有可能适应人类所构建的世界。
但随之而来的问题是,这背后需要海量的数据支持,尤其是人形机器人更为明显。因为人形机器人面临的场景多样,而且这些场景的数据采集不容易。甚至有业界人士认为,当前具身智能最大的瓶颈就是缺乏数据。
其实不止于机器人场景,无论是构建具有强逻辑的 AI 模型,还是训练像 GPT-4 这样的大语言模型,都离不开大规模、高质量的数据集。例如,GPT-4 的模型训练就动用了大约 13 万亿个 tokens 的数据集,这无疑是一个天文数字。
在这样的数据需求下,我们自然会思考:如此庞大的训练数据究竟从何而来?
AI 行业数据的瓶颈,何解?
基于庞大数据和超高算力的'暴力美学',是当前生成式人工智能的核心打法。简单来说,在同等条件下,喂的数据越多,人工智能就越强。海量、优质的数据争夺已经成为国家和企业间的无声战场。基于数字技术形成的通用数据、优质数据垄断,可能将成为这场数字拓荒当中,后发者无法逾越的天堑。
但是从真实世界获取数据是一件困难重重的事。Google 在RT-1项目中的经历就是一个例证,在雄厚的资金和科研资源支持下,Google 团队历时 17 个月,仅收集到 13 万条覆盖 700 多个任务的机器人数据,这些数据的泛化能力远未达到预期。
由此可见,获取真实数据难度大、耗时长、成本高,同时还存在现实世界数据采集在隐私合规和数据安全方面的挑战,难以满足人工智能大模型训练的需求。当前,'百模大战'如火如荼,头部企业竞相投身人工智能赛道,但有效数据不足,特别是高质量数据短缺,部分领域封闭式的数据生态给人工智能发展带来了掣肘。如何解决'数据瓶颈'是未来一段时期我们即将面临——或已经面临的挑战。
合成数据:低成本 + 高质量的解决方案
目前,利用计算机技术生成数据的服务商成为解决之道。这类方案通常利用其庞大的虚拟空间数据资源,结合高性能的渲染引擎和先进的数据处理技术,为 AI 行业提供逼真且物理真实的 2D、3D 数据集等产品和服务。
以室内环境为例,相关平台每天会生成大量的 3D 设计方案,并沉淀了数以亿计的 3D 模型数据,涵盖家具、电器、生活用品等。在此基础上,与高校联手推出了多种数据集,为室内环境理解、3D 重构、机器人交互等研究提供了强大数据基础。
1. 2D 图片渲染技术
在 2D 图片渲染技术上,利用自研渲染引擎,在多样化的室内场景中,通过调整相机参数、行进轨迹、灯光条件等设置进行图片数据的采集,最终生成 RGB、深度、语义、法向、点云等格式的 2D 数据集。这样的数据输出能力,使得系统能够每天产出大量 2D 数据集,为 AI 智能体的导航、视觉感知、环境理解等能力提供了充足的训练素材。
2. 物理性质增强
在人形机器人的发展道路上,环境交互能力是其智能化的关键。比如自如开关门、精准取放物体、甚至叠放衣物等。
以 NVIDIA Isaac Sim 仿真平台项目为例,通过创建一个包含物理属性的逼真 3D 环境,让机器人能够在虚拟世界中学习如何与物体互动、预测物理事件,甚至在虚拟世界中进行探索和导航。在这样的虚拟环境中,机器人可以进行无数次的交互测试,无需担心物理损伤或环境限制,从而大幅降低了训练成本,同时提高了训练的安全性和可重复性。
基于此类理念,利用 Isaac Sim、Unreal Engine 等为代表的仿真平台,为机器人训练提供了定制化的场景和交互模型。这些数据不仅在视觉上逼真,更重要的是,它们具备真实的物理属性——铰链、滑轨等组件可以进行旋转和平移,同时模型还拥有真实的密度、摩擦力和弹性等物理状态信息。这使得机器人能够在物理真实的虚拟环境下,以极低的成本获取大量的训练数据,测试并优化其性能。
3. 场景环境增强
在 AI 的世界里,光线就像是那个决定成败的细节,特别是在视觉感知任务中,光线条件对 AI 的识别和分析能力起着至关重要的作用。
拿上文提到的 InteriorNet 来说,这一大规模多传感器真实感室内场景数据集,通过提供不同光照环境下的高真实感渲染图像,展示了环境增强与多样化在提升 AI 性能方面的重要性。服务类机器人在面对室内外光线变化时,可能会遇到识别障碍,因此,拥有一个涵盖广泛光照条件的数据集对于训练 AI 以适应各种环境至关重要。
虚拟室内场景中的每个灯源设定详细参数,实现个性化的灯光环境控制,让机器人在不同的光照环境下都能'看'得清清楚楚,学得明明白白。
除了光照条件的多样性,还通过**Domain Randomization(域随机化)**技术,进一步增强了场景环境的复杂性。这项功能能够根据不同的训练需求,灵活切换模型的表面材质,比如将大理石地面替换为木质地板,调整不同反射效果,从而在虚拟环境中模拟出真实世界的多样性和复杂性。让机器人的训练更加贴近现实,增强了它的适应性和泛化能力。
4. 高效标注系统
AI 领域中的数据标注是模型性能的关键因素,但传统的人工标注方式劳动密集且耗时。


