使用潜在扩散模型生成移动的3D声景

于红博 · 发表于 2025-9-22 19:43:39

摘要: 空间音频已成为沉浸式应用（如VR/AR、电影和音乐）的核心。现有的生成音频模型在很大程度上局限于单声道或立体声格式，并不能捕捉到第一级Ambisonics（FOA）中可用的完整3D定位线索。最近的FOA模型扩展了文本到音频生成，但仍仅限于静态源。在这项工作中，我们介绍了SonicMotion，这是第一个端到端的潜在扩散框架，能够生成具有明确控制移动声源的FOA音频。SonicMotion有两种实现方式：1）一个描述性模型，以自然语言提示为条件，和2）一个参数模型，以文本和空间轨迹参数为条件，以提高精度。为了支持训练和评估，我们构建了一个新的数据集，包括超过一百万个模拟的FOA标题对，其中既包括静态源也包括动态源，并注释了方位角、仰角和运动属性。实验表明，SonicMotion实现了与领先的文本到音频系统相媲美的语义对齐和感知质量，同时独特地实现了低空间定位误差。

更新时间: 2025-09-19 13:59:48

领域: cs.SD,cs.AI,eess.AS

下载: http://arxiv.org/abs/2507.07318v2

		自动登录	找回密码
密码			立即注册