FocalCodec-Stream: 通过因果蒸馏进行低比特率语音编码的流式传输

于红博 · 发表于 2025-9-22 16:20:58

摘要: 神经音频编解码器是现代生成音频流水线的基本组成部分。尽管最近的编解码器实现了强大的低比特率重建，并为下游任务提供了强大的表示，但大多数都是非流式的，限制了它们在实时应用中的使用。我们提出了一种基于焦点调制的混合编解码器FocalCodec-Stream，将语音压缩为一个单一的二进制码书，比特率为0.55-0.80 kbps，理论延迟为80毫秒。我们的方法结合了WavLM的多阶段因果精馏与有针对性的架构改进，包括一个轻量级的细化模块，可以在延迟约束下增强质量。实验证明，FocalCodec-Stream在相当比特率下优于现有的可流式编解码器，同时保留了语义和声学信息。结果是在重建质量、下游任务性能、延迟和效率之间取得了有利的权衡。代码和检查点将在https://github.com/lucadellalib/focalcodec发布。

更新时间: 2025-09-19 17:57:13

领域: cs.SD,cs.AI,cs.LG,eess.AS

下载: http://arxiv.org/abs/2509.16195v1

		自动登录	找回密码
密码			立即注册