谱写自己：用于一步语音增强的平均速度流匹配

于红博 · 发表于 2025-9-22 19:48:42

摘要: 扩散和流匹配（FM）模型在语音增强（SE）方面取得了显著进展，但它们对多步生成的依赖在计算上昂贵且容易受到离散化错误的影响。最近一步生成建模的进展，特别是MeanFlow，通过重新构建动态平均速度场提供了一种有前途的替代方案。在这项工作中，我们提出了COSE，一个专为SE量身定制的一步FM框架。为了解决MeanFlow中Jacobian向量乘积（JVP）计算的高训练开销，我们引入了一个速度组合恒等式来高效计算平均速度，消除昂贵的计算同时保持理论一致性并实现竞争性增强质量。对标准基准进行的大量实验表明，COSE提供了高达5倍更快的采样速度，并将训练成本降低了40％，而不会影响语音质量。代码可在https://github.com/ICDM-UESTC/COSE获取。

更新时间: 2025-09-19 13:07:39

领域: cs.SD,cs.AI,cs.LG,eess.AS

下载: http://arxiv.org/abs/2509.15952v1

		自动登录	找回密码
密码			立即注册