我的位置: 上观号 > 浦东观察 > 文章详情

智元机器人发布行业首个机器人世界模型开源平台

转自:浦东观察 2025-08-14 17:34:16


浦东具身智能代表企业—智元机器人8月14日宣布,重磅推出面向真实世界机器人操控的统一世界模型平台——Genie Envisioner(GE)。


不同于传统“数据—训练—评估”割裂的流水线模式,GE将未来帧预测、策略学习与仿真评估首次整合进以视频生成为核心的闭环架构,使机器人在同一世界模型中完成从“看”到“想”再到“动”的端到端推理与执行。



“GE通过视觉中心的世界建模,为机器人学习开辟了新的技术路径。团队将开源全部代码、预训练模型和评测工具。”智元机器人相关负责人介绍。


当前机器人学习系统普遍采用分阶段开发模式——数据收集、模型训练、策略评估,每个环节相互独立,并需要专门的基础设施和任务特定调优。这种碎片化架构增加了开发复杂度,延长了迭代周期,限制了系统的可扩展性。GE平台则通过构建统一的视频生成世界模型,将这些分散的环节集成到一个闭环系统中。基于约3000小时的真实机器人操控视频数据,GE建立了从语言指令到视觉空间的直接映射,保留了机器人与环境交互的完整时空信息。


作为行业首个机器人世界模型开源平台,GE的核心突破有哪些?对此,智元机器人相关负责人进一步介绍道,GE构建了基于世界模型的以视觉中心的建模范式。不同于主流VLA(Vision-Language-Action)方法依赖视觉——语言模型将视觉输入映射到语言空间进行间接建模,GE直接在视觉空间中建模机器人与环境的交互动态。这种方法完整保留了操控过程中的空间结构和时序演化信息,实现了对机器人——环境动态更精确、更直接的建模。这一视觉中心的建模范式带来了两个关键优势:高效的跨本体泛化能力和长时序任务的精确执行能力。


GE的发布,标志着机器人从被动执行向主动‘想象—验证—行动’的转变。智元机器人方面透露,未来,将扩展更多传感器模态,支持全身移动与人机协作,持续推动智能制造与服务机器人的落地应用。