|
摘要: 将大规模扩散模型部署到实时、无限时长、音频驱动的头像生成中,面临着一个重要的工程挑战,主要是由于计算负载和严格的延迟约束之间的冲突。现有方法通常通过强制使用严格的单向注意机制或降低模型容量来牺牲视觉保真度。为了解决这个问题,我们引入了\textbf{SoulX-LiveTalk},一个优化了高保真度实时流的14B参数框架。与传统的单向范式不同,我们采用\textbf{自校正双向蒸馏}策略,在视频块内保留双向关注。这种设计保留了关键的时空相关性,显著增强了运动连贯性和视觉细节。为了确保在无限生成过程中的稳定性,我们引入了一个\textbf{多步回顾自校正机制},使模型能够自主从累积错误中恢复并防止崩溃。此外,我们设计了一个全栈推理加速套件,包括混合序列并行性、并行VAE和内核级优化。广泛的评估证实,SoulX-LiveTalk是第一个实现\textbf{次秒级启动延迟(0.87秒)}并达到\textbf{32 FPS}的实时吞吐量的14B规模系统,为高保真度交互式数字人类合成设定了新的标准。 更新时间: 2025-12-31 14:38:59 领域: cs.CV,cs.AI
|