|
摘要: Transformer-based architectures在自然语言处理、计算机视觉和语音处理等领域的广泛任务中取得了最先进的性能。然而,它们的巨大容量往往会导致过拟合,特别是在训练数据有限或含噪声的情况下。在这项研究中,提出了一种统一的家族随机正则化技术,即AttentionDrop及其三种不同变体,直接作用于自注意力分布。Hard Attention Masking随机将每个查询的前k个注意力logits置零,以鼓励多样化的上下文利用,Blurred Attention Smoothing通过在注意力logits上应用动态高斯卷积来扩散过于尖锐的分布,Consistency-Regularized AttentionDrop通过基于KL的一致性损失在多个独立的AttentionDrop扰动下强制输出稳定性。研究结果表明,AttentionDrop始终在标准Dropout、DropConnect和R-Drop基线上提高了准确性、校准性和对抗鲁棒性。 更新时间: 2025-09-19 11:47:37 领域: cs.CV,cs.AI,cs.LG
|