MeanFlowSE：通过条件均值流的一步生成式语音增强

于红博 · 发表于 2025-9-21 15:16:43

摘要: 多步推理是实时生成性语音增强的瓶颈，因为基于流和扩散的系统学习瞬时速度场，因此依赖于迭代的常微分方程（ODE）求解器。我们引入了MeanFlowSE，一个条件生成模型，它学习沿轨迹的有限间隔内的平均速度。使用雅可比-向量积（JVP）来实例化MeanFlow身份，我们推导出一个本地训练目标，直接监督有限间隔位移，同时保持对角线上的瞬时场约束一致。在推断中，MeanFlowSE通过向后位移执行单步生成，消除了多步求解器的需要；一个可选的几步变体提供额外的细化。在VoiceBank-DEMAND上，单步模型以比多步基线更低得多的计算成本实现了强大的可理解性、保真度和感知质量。该方法不需要知识蒸馏或外部教师，提供了一个高效、高保真度的实时生成性语音增强框架。

更新时间: 2025-09-18 11:24:47

领域: cs.SD,cs.AI

下载: http://arxiv.org/abs/2509.14858v1

		自动登录	找回密码
密码			立即注册