转载自:上海人工智能实验室
在具身智能模拟训练中,可交互物体作为链接智能体(Agent)与“任务”的桥梁,提供了接近真实世界的任务情境。当前在国际上,由加州大学圣地亚哥分校提出的数据集PartNet-Mobility被广为采用,该数据集提供了质量较高的可交互物体,但数量有限(约2300 个),并且由于其采用人工标注采集,成本居高不下。
近日,上海人工智能实验室(上海AI实验室)开源了可交互物体生成模型Infinite Mobility,基于程序化生成技术,可实现高速生成无限数量的高质量可交互物体,从而可以更低成本持续为下游的仿真训练等任务提供海量数据资源。
目前,由Infinite Mobility生成的22类可交互物体数据资产,已应用于桃源2.0、Isaac Sim等多个业界通用的仿真训练平台。
上海AI实验室通过构建“虚实贯通”技术体系进行具身自主探索,该体系覆盖“真实-模拟-真实”(Real-Sim-Real)全闭环路径。作为该路径的中间环节,机器人在桃源等数字模拟(Sim)平台中,进行大批量训练任务,在真实世界数据与高质量合成数据的配比增强下,高效加速自主演进进程。
代码链接:https://github.com/OpenRobotLab/Infinite-Mobility
项目链接:https://infinite-mobility.github.io/
论文地址:https://arxiv.org/abs/2503.13424
与PartNet Mobility相比,Infinite Mobility生成的物体具有结构复杂度更高、外观质量更优、生成成本更低的特点。下表对传统使用的PartNet Mobility数据集与我们的程序化生成式模型产生的数据资产进行了对比。
结构丰富:与PartNet Mobility中的物体相比,Infinite Mobility生成的物体平均关节数量提升超过1倍,结构丰富程度较前者提升15倍以上。
质量更高:在GPT-4V的评测中,Infinite Mobility生成物体的整体质量优于PartNet Mobility,在几何质量方面胜率64.18%,材质表现方面胜率高达84.81%。经约3万次用户对比测试,95.37%的情况下用户表示Infinite Mobility生成物体的关节质量达到或超过PartNet Moblity水平。
价格更低:人工制作的可交互物体平均单价约数十元,使用Infinite Mobility生成物体使单个成本可降至约0.01元。
在医疗机器人、家庭服务机器人等领域,针对真实应用需求,机器人需准确操作医疗器械、家用电器等工具。然而,此类日常工具物体的关节设计复杂且操作容错率低。现有数据集的单一结构,难以覆盖实际场景中的多样性需求,高质量的可交互物体极度稀缺,导致仿真训练与真机操作之间存在显著差距。
为此,上海AI实验室提出具身交互物体生成模型Infinite Mobility,支持22个种类的常见可交互物体生成。相较于当前规模最大的可交互物体数据集PartNet Moblity(仅2300个物体),Infinite Mobility支持无限生成数量,单个物体的生成仅需约1秒。在多样性方面,由Infinite Mobility生成的单个物体,平均关节数量提升超过1倍,结构丰富程度提升超过15倍。
研究人员使用GPT-4V的评测结果显示,对比同类生成物体,由Infinite Mobility所生成的物体,几何质量在64.18%的情况下更优,材质表现则在84.81%的对比中胜出。在用户测试中,在95.37%的情况下,用户认为Infinite Mobility生成的物体的关节质量达到或超过PartNet Moblity的水平。
传统数据驱动方法依赖于人工标注与采集,成本高昂且难以覆盖长尾场景;而基于物理模拟的方法虽然能提升真实性,但计算资源消耗巨大,生成效率低下。Infinite Mobility通过程序化规则与语义逻辑的结合,在保证质量的同时突破了规模限制。
研究团队从程序指导的物体语义结构合成开始,通过从根节点生长出树结构的方式产生合理,多样的物体结构树,再基于树节点的精确语义准确匹配高质量几何与材质。在得到了部件几何形状与语义信息的基础上,确定准确合理的关节信息,主要实现三项技术突破:
树结构生长策略:构建动态物体的“骨骼”
Infinite Mobility将物体结构抽象为类似URDF的树状模型,从根节点开始,基于语义规则动态“生长”出完整结构。通过概率分布控制子树的生成组合,模型既能保证功能完整性,又能随机生成多门设计、异形把手等罕见形态。
研究人员引入“单类别关节数量方差”和“成对树编辑距离”作为多样性评价指标。前者衡量同一类物体内部的关节复杂度差异,后者量化不同物体结构的拓扑差异。结果显示,Infinite Mobility的多样性指标比PartNet Mobility提升超过15倍,充分验证了其生成能力的广度。
几何与材质:从精准到多样
模型采用“程序化生成+精选资产库”双轨制的策略得到物体零件的几何形状:程序化模块确保部件尺寸、位置与支撑点的精准对齐,例如柜门与把手的无缝装配。资产库从已有3D模型中精选并修正数百个物体零件,覆盖从现代极简到复古雕花的风格谱系。
材质方面,通过程序化调整PBR(基于物理的渲染)参数,模型可生成逼真的金属氧化痕迹、木材纹理渐变甚至塑料磨损效果。相比之下,PartNet Mobility等数据集中大量资产对于单一部件仅提供简单颜色材质,与真实世界物体视觉效果差异大。在GPT-4V的对比评测中,Infinite Mobility生成的材质以超过80%的概率优于PartNet Mobility的材质。
物理合理性:规避仿真中的“离谱”动作
针对过往数据集中物体自碰撞、关节运动不合理等问题,Infinite Mobility通过程序化检测与调整,确保生成物体可直接用于仿真环境。例如,在开门动作中,模型会动态计算门板旋转角度与地面高度的关系,自动调整铰链位置以避免撞击。
为加速技术普惠,上海AI实验室将Infinite Mobility的代码与资产全面开源。生成的物体可导入至桃源、Issac Sim等仿真平台进行训练,让机器人在虚拟环境中学习与物体进行交互。
研究团队对生成的资产进行了进一步的仿真环境操作任务测试。下图展示了模拟机器人对微波炉和橱柜进行开关操作的场景。将生成的微波炉与橱柜模型转换为USD格式,并导入Isaac Sim仿真平台。通过简便高效的物理属性标注和关键接触点标注流程(仅需3-5分钟),实现了机器人与铰接物体的精准交互控制。这使得大规模生成铰接物体操作的高质量训练数据成为可能,并可轻松教会机器人学会开/关等操作。基于大量丰富的铰接物体资产库与生成轨迹,团队成功训练了Seer操作算法(详见:融合感知与执行,端到端操作模型Seer驱动机器人“边想边做”),在闭环操作成功率和零样本真机部署成功率方面均表现优异,进一步展现了Infinite Mobility在高质量具身数据生成方面的应用价值和发展前景。
欢迎转发,但请注明出处“上海经信委”
觉得不错请点赞!