找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 27|回复: 0

回到耳朵:感知驱动的高保真音乐重建

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-21 15:11:56 | 显示全部楼层 |阅读模式
摘要: Variational Autoencoders (VAEs) 对于像扩散式生成这样的大规模音频任务至关重要。然而,现有的开源模型在训练过程中往往忽视听觉感知方面,导致在相位准确性和立体声空间表示方面存在弱点。为了解决这些挑战,我们提出了一个名为εar-VAE的开源音乐信号重建模型,重新思考和优化了VAE训练范式。我们的贡献有三个方面:(i) 在损失计算之前应用K加权感知滤波器,以使目标与听觉感知相一致。(ii) 两个新颖的相位损失:用于立体相干性的相关损失,以及使用其导数--瞬时频率和组延迟--用于精度的相位损失。(iii) 一种新的频谱监督范式,其中幅度由所有四个Mid/Side/Left/Right组件进行监督,而相位仅由LR组件进行监督。实验表明,在44.1kHz下,εar-VAE在各种指标上大大优于领先的开源模型,尤其在重建高频谐波和空间特性方面表现出特别的优势。
更新时间: 2025-09-18 12:41:34
领域: cs.SD,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-11-1 15:16 , Processed in 0.076932 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表