找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 16|回复: 0

使用基于注意力的双重压缩进行通信高效的ViTs拆分学习

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-21 14:59:35 | 显示全部楼层 |阅读模式
摘要: 这篇论文提出了一种新颖的通信高效的分布式学习(SL)框架,名为基于注意力的双重压缩(ADC),它减少了在SL训练过程中传输中间Vision Transformers激活所需的通信开销。ADC融合了两种并行压缩策略。第一种策略基于上一个客户端层中计算的平均注意力分数,合并相似的样本激活;这种策略是与类别无关的,也就是说,它可以合并具有不同类别的样本,而不会失去泛化能力或降低最终结果。第二种策略遵循第一种策略,丢弃最不重要的标记,进一步降低了通信成本。结合这些策略不仅允许在前向传递过程中发送更少的内容,而且梯度自然地被压缩,使整个模型可以在不需要额外调整或梯度近似的情况下进行训练。模拟结果表明,基于注意力的双重压缩优于最先进的SL框架,显著减少了通信开销同时保持高准确性。
更新时间: 2025-09-18 15:22:24
领域: cs.LG,cs.AI,cs.CV,stat.ML

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-11-1 18:16 , Processed in 0.074464 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表