找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 11|回复: 0

生成式人形机器人世界建模:1X世界模型挑战技术报告

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-10-9 16:37:07 | 显示全部楼层 |阅读模式
摘要: 世界模型是人工智能和机器人技术中的一个强大范式,使代理能够通过预测视觉观察或紧凑潜在状态来推理未来。1X世界模型挑战引入了一个开源的现实世界人形互动基准,包括两个互补的轨道:采样,专注于预测未来图像帧,和压缩,专注于预测未来离散潜在编码。对于采样轨道,我们将视频生成基础模型Wan-2.2 TI2V-5B调整为视频状态条件下的未来帧预测。我们使用AdaLN-Zero将视频生成与机器人状态联系起来,并进一步使用LoRA对模型进行后训练。对于压缩轨道,我们从头开始训练了一个时空变换器模型。我们的模型在采样任务中实现了23.0 dB的PSNR,在压缩任务中实现了6.6386的Top-500 CE,获得了两个挑战中的第一名。
更新时间: 2025-10-08 14:49:12
领域: cs.LG,cs.AI,cs.RO

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 06:13 , Processed in 0.077355 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表