|
摘要: 一个世界模型是一个内部模型,模拟世界如何演变。根据过去的观察和行为,它预测了具体代理和其环境的未来。准确的世界模型对于使代理能够在复杂、动态的环境中有效地思考、规划和推理至关重要。尽管取得了迅速的进展,当前的世界模型仍然脆弱,并且在长期预测中会逐渐恶化。我们认为其中一个主要原因是表示质量:外部输入(例如图像)是高维的,丢失或纠缠的潜在因素使动态学习变得不必要地困难。因此,我们想知道仅通过改进表示学习是否可以显著提高世界模型的性能。在这项工作中,我们迈出了一步,通过解决一个基本但尚未解决的问题,建立一个真正准确的世界模型:构建一个能够完全克隆和过度拟合确定性3D世界的模型。我们提出了几何正则化世界模型(GRWM),它强制要求自然感知轨迹上连续的点在潜在表示空间中保持接近。这种方法产生了明显改进的潜在表示,与环境的真实拓扑密切对齐。GRWM是即插即用的,只需要最少的架构修改,随着轨迹长度的增加而扩展,并且与各种潜在生成基础兼容。在确定性3D设置和长期预测任务中,GRWM显著提高了模拟结果的准确性和稳定性。分析表明,其优势源于学习具有优越几何结构的潜在流形。这些发现支持一个明确的结论:改进表示学习是实现稳健世界模型的一条直接且有用的路径,提供可靠的长期预测,而无需扩大动态模块。 更新时间: 2025-10-30 17:56:43 领域: cs.LG,cs.AI,cs.CV
|