摘要: 最近生成建模的进展已经将扩散模型定位为从复杂数据分布中采样的最先进工具。虽然这些模型在单模态领域,如图像和音频中表现出了显著成功,但将它们的能力扩展到模态转换(MT),即在不同感官模态之间翻译信息,仍然是一个开放的挑战。现有方法通常依赖于限制性假设,包括共享维度、高斯源先验和模态特定架构,这些限制了它们的通用性和理论基础。在这项工作中,我们提出了潜在去噪扩散桥模型(LDDBM),这是一个基于去噪扩散桥模型的潜在变量扩展的通用框架,用于模态转换。通过在共享的潜在空间中操作,我们的方法学习了在任意模态之间建立桥梁,而不需要对齐维度。我们引入了对比对齐损失来强制实现配对样本之间的语义一致性,并设计了一个适用于潜在空间中噪声预测的领域无关的编码器-解码器架构。此外,我们提出了一个预测损失来指导训练,以实现准确的跨域翻译,并探索了几种改进稳定性的训练策略。我们的方法支持任意模态对,并在多样的MT任务中表现出色,包括多视图到3D形状生成、图像超分辨率和多视图场景合成。全面的实验和消融验证了我们框架的有效性,在一般模态转换中确立了一个新的强基线。更多信息,请查看我们的项目页面:https://sites.google.com/view/lddbm/home。 更新时间: 2025-10-23 17:59:54 领域: cs.CV,cs.AI,cs.LG
|