|
摘要: 训练后模型剪枝是一种有前途的解决方案,但它面临一个折衷:简单的启发式方法将零权重快速减少,但会降低准确性,而基于原则的联合优化方法虽然恢复了准确性,但在现代规模下计算量不可行。像SparseGPT这样的一次性方法通过应用高效的、近似的启发式权重更新提供了一个实际的最优化折衷。为了弥补这一差距,我们引入了OPTIMA,一种实用的一次性训练后剪枝方法,可以平衡准确性和可扩展性。OPTIMA将掩膜选择后的每层权重重建视为独立的、逐行的二次规划(QP),这些QP共享一个公共层Hessian。解决这些QP可以得到每行相对于给定估计Hessian的重建目标的全局最优更新。共享Hessian结构使得问题非常适合在加速器上进行批处理。我们实现了一个加速器友好的QP求解器,积累每层一个Hessian,并并行解决许多小QP,从而在单个加速器上实现一次性训练后的剪枝,无需微调。OPTIMA与现有的掩膜选择器集成,并在多个LLM家族和稀疏区域中持续改善零次命中的性能,最多可以提高3.97%的绝对准确性。在NVIDIA H100上,OPTIMA在40小时内端到端地剪枝了一个8B参数的变压器,峰值内存为60GB。总的来说,这些结果为一次性训练后的剪枝设定了新的最先进的准确性-效率折衷。 更新时间: 2025-12-31 02:49:31 领域: cs.LG,cs.AI,cs.PF
|