找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 20|回复: 0

Fed-PISA: 通过个性化身份风格适应进行联邦语音克隆

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 19:43:04 | 显示全部楼层 |阅读模式
摘要: 语音克隆用于文本转语音(TTS)旨在利用目标说话者的有限数据从文本生成富有表现力和个性化的语音。联邦学习(FL)为这一任务提供了一种协作和保护隐私的框架,但现有方法存在高通信成本,并且往往抑制风格多样性,导致个性化不足。为了解决这些问题,我们提出了Fed-PISA,即联邦个性化身份风格适应。为了最小化通信成本,Fed-PISA引入了一个解耦的低秩适应(LoRA)机制:通过私有ID-LoRA保留说话者的音色,只有轻量级的风格LoRA传输到服务器,从而最小化参数交换。为了利用多样性,我们引入了一个灵感来自协作过滤的聚合方法,通过从风格上相似的同行学习为每个客户端创建定制模型。实验表明,Fed-PISA提高了风格表现力、自然性和说话者相似度,优于标准的联邦基线,并且通信成本最小。
更新时间: 2025-09-19 14:24:45
领域: cs.SD,cs.AI,eess.AS

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 13:27 , Processed in 0.071158 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表