|
摘要: Class-Incremental Learning(CIL)旨在赋予模型不断适应不断发展的数据流的能力。最近在预训练视觉-语言模型(例如CLIP)方面取得的进展为这一任务提供了强大的基础。然而,现有方法通常依赖于简单的模板,比如“一张[CLASS]的照片”,而忽视了视觉概念的层次性质。例如,识别“猫”与“车”取决于粗粒度线索,而区分“猫”与“狮子”则需要细粒度细节。同样,CLIP中当前的特征映射仅依赖于最后一层的表示,忽视了早期层中包含的层次信息。在这项工作中,我们为基于CLIP的CIL引入了HiErarchical Representation MAtchiNg(HERMAN)。我们的方法利用LLMs递归生成具有区分性的文本描述符,从而通过显式层次线索增强语义空间。这些描述符与语义层次的不同级别匹配,并根据任务特定要求进行自适应路由,实现精确区分,同时减轻增量任务中的灾难性遗忘。在多个基准测试上的大量实验证明,我们的方法始终取得最先进的性能。 更新时间: 2025-09-26 17:59:51 领域: cs.CV,cs.AI
|