找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 20|回复: 0

FocalCodec-Stream: 通过因果蒸馏进行低比特率语音编码的流式传输

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 16:20:58 | 显示全部楼层 |阅读模式
摘要: 神经音频编解码器是现代生成音频流水线的基本组成部分。尽管最近的编解码器实现了强大的低比特率重建,并为下游任务提供了强大的表示,但大多数都是非流式的,限制了它们在实时应用中的使用。我们提出了一种基于焦点调制的混合编解码器FocalCodec-Stream,将语音压缩为一个单一的二进制码书,比特率为0.55-0.80 kbps,理论延迟为80毫秒。我们的方法结合了WavLM的多阶段因果精馏与有针对性的架构改进,包括一个轻量级的细化模块,可以在延迟约束下增强质量。实验证明,FocalCodec-Stream在相当比特率下优于现有的可流式编解码器,同时保留了语义和声学信息。结果是在重建质量、下游任务性能、延迟和效率之间取得了有利的权衡。代码和检查点将在https://github.com/lucadellalib/focalcodec发布。
更新时间: 2025-09-19 17:57:13
领域: cs.SD,cs.AI,cs.LG,eess.AS

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-11-1 15:18 , Processed in 0.072636 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表