找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 14|回复: 0

使用潜在扩散模型生成移动的3D声景

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 19:43:39 | 显示全部楼层 |阅读模式
摘要: 空间音频已成为沉浸式应用(如VR/AR、电影和音乐)的核心。现有的生成音频模型在很大程度上局限于单声道或立体声格式,并不能捕捉到第一级Ambisonics(FOA)中可用的完整3D定位线索。最近的FOA模型扩展了文本到音频生成,但仍仅限于静态源。在这项工作中,我们介绍了SonicMotion,这是第一个端到端的潜在扩散框架,能够生成具有明确控制移动声源的FOA音频。SonicMotion有两种实现方式:1)一个描述性模型,以自然语言提示为条件,和2)一个参数模型,以文本和空间轨迹参数为条件,以提高精度。为了支持训练和评估,我们构建了一个新的数据集,包括超过一百万个模拟的FOA标题对,其中既包括静态源也包括动态源,并注释了方位角、仰角和运动属性。实验表明,SonicMotion实现了与领先的文本到音频系统相媲美的语义对齐和感知质量,同时独特地实现了低空间定位误差。
更新时间: 2025-09-19 13:59:48
领域: cs.SD,cs.AI,eess.AS

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 08:29 , Processed in 0.067173 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表