找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 3|回复: 0

OPTIMA:通过二次规划重建实现LLMs的最佳一次性修剪

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2026-1-4 23:22:02 | 显示全部楼层 |阅读模式
摘要: 训练后模型剪枝是一种有前途的解决方案,但它面临一个折衷:简单的启发式方法将零权重快速减少,但会降低准确性,而基于原则的联合优化方法虽然恢复了准确性,但在现代规模下计算量不可行。像SparseGPT这样的一次性方法通过应用高效的、近似的启发式权重更新提供了一个实际的最优化折衷。为了弥补这一差距,我们引入了OPTIMA,一种实用的一次性训练后剪枝方法,可以平衡准确性和可扩展性。OPTIMA将掩膜选择后的每层权重重建视为独立的、逐行的二次规划(QP),这些QP共享一个公共层Hessian。解决这些QP可以得到每行相对于给定估计Hessian的重建目标的全局最优更新。共享Hessian结构使得问题非常适合在加速器上进行批处理。我们实现了一个加速器友好的QP求解器,积累每层一个Hessian,并并行解决许多小QP,从而在单个加速器上实现一次性训练后的剪枝,无需微调。OPTIMA与现有的掩膜选择器集成,并在多个LLM家族和稀疏区域中持续改善零次命中的性能,最多可以提高3.97%的绝对准确性。在NVIDIA H100上,OPTIMA在40小时内端到端地剪枝了一个8B参数的变压器,峰值内存为60GB。总的来说,这些结果为一次性训练后的剪枝设定了新的最先进的准确性-效率折衷。
更新时间: 2025-12-31 02:49:31
领域: cs.LG,cs.AI,cs.PF

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 16:01 , Processed in 0.088377 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表