找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 44|回复: 0

STaMP:用于低精度激活量化的序列转换和混合精度

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 18:26:03 | 显示全部楼层 |阅读模式
摘要: 量化是降低生成式人工智能模型推断延迟、功耗和内存占用的关键方法。然而,当激活值量化到八位以下时,准确性往往会急剧下降。最近的研究表明,可逆线性变换(例如旋转)可以帮助量化,通过重新参数化特征通道和权重。在本文中,我们提出了一种新颖的策略,称为\textit{序列变换和混合精度}(STaMP)量化,该策略沿着\textit{序列}维度应用线性变换,以利用语言和视觉数据中的强局部相关性。通过在每个中间激活中保留少量令牌以更高精度表示,我们可以在较低(平均)激活位宽下保持模型准确性。我们在最近的LVM和LLM架构上评估了STaMP,表明它显著改善了低位宽激活量化,并补充了已建立的激活和权重量化方法,包括最近的特征变换。
更新时间: 2025-10-30 17:53:42
领域: cs.LG,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 23:40 , Processed in 0.087242 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表