回到耳朵：感知驱动的高保真音乐重建

于红博 · 发表于 2025-9-21 15:11:56

摘要: Variational Autoencoders (VAEs) 对于像扩散式生成这样的大规模音频任务至关重要。然而，现有的开源模型在训练过程中往往忽视听觉感知方面，导致在相位准确性和立体声空间表示方面存在弱点。为了解决这些挑战，我们提出了一个名为εar-VAE的开源音乐信号重建模型，重新思考和优化了VAE训练范式。我们的贡献有三个方面：(i) 在损失计算之前应用K加权感知滤波器，以使目标与听觉感知相一致。(ii) 两个新颖的相位损失：用于立体相干性的相关损失，以及使用其导数--瞬时频率和组延迟--用于精度的相位损失。(iii) 一种新的频谱监督范式，其中幅度由所有四个Mid/Side/Left/Right组件进行监督，而相位仅由LR组件进行监督。实验表明，在44.1kHz下，εar-VAE在各种指标上大大优于领先的开源模型，尤其在重建高频谐波和空间特性方面表现出特别的优势。

更新时间: 2025-09-18 12:41:34

领域: cs.SD,cs.AI

下载: http://arxiv.org/abs/2509.14912v1

		自动登录	找回密码
密码			立即注册