找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 1|回复: 0

SoulX-LiveTalk:基于音频驱动头像的实时无限流媒体通过自我校正的双向蒸馏

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2026-1-4 23:00:43 | 显示全部楼层 |阅读模式
摘要: 将大规模扩散模型部署到实时、无限时长、音频驱动的头像生成中,面临着一个重要的工程挑战,主要是由于计算负载和严格的延迟约束之间的冲突。现有方法通常通过强制使用严格的单向注意机制或降低模型容量来牺牲视觉保真度。为了解决这个问题,我们引入了\textbf{SoulX-LiveTalk},一个优化了高保真度实时流的14B参数框架。与传统的单向范式不同,我们采用\textbf{自校正双向蒸馏}策略,在视频块内保留双向关注。这种设计保留了关键的时空相关性,显著增强了运动连贯性和视觉细节。为了确保在无限生成过程中的稳定性,我们引入了一个\textbf{多步回顾自校正机制},使模型能够自主从累积错误中恢复并防止崩溃。此外,我们设计了一个全栈推理加速套件,包括混合序列并行性、并行VAE和内核级优化。广泛的评估证实,SoulX-LiveTalk是第一个实现\textbf{次秒级启动延迟(0.87秒)}并达到\textbf{32 FPS}的实时吞吐量的14B规模系统,为高保真度交互式数字人类合成设定了新的标准。
更新时间: 2025-12-31 14:38:59
领域: cs.CV,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 15:41 , Processed in 0.084997 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表