基于CLIP的类别增量学习的分层表示匹配

于红博 · 发表于 2025-9-30 19:46:29

摘要: Class-Incremental Learning（CIL）旨在赋予模型不断适应不断发展的数据流的能力。最近在预训练视觉-语言模型（例如CLIP）方面取得的进展为这一任务提供了强大的基础。然而，现有方法通常依赖于简单的模板，比如“一张[CLASS]的照片”，而忽视了视觉概念的层次性质。例如，识别“猫”与“车”取决于粗粒度线索，而区分“猫”与“狮子”则需要细粒度细节。同样，CLIP中当前的特征映射仅依赖于最后一层的表示，忽视了早期层中包含的层次信息。在这项工作中，我们为基于CLIP的CIL引入了HiErarchical Representation MAtchiNg（HERMAN）。我们的方法利用LLMs递归生成具有区分性的文本描述符，从而通过显式层次线索增强语义空间。这些描述符与语义层次的不同级别匹配，并根据任务特定要求进行自适应路由，实现精确区分，同时减轻增量任务中的灾难性遗忘。在多个基准测试上的大量实验证明，我们的方法始终取得最先进的性能。

更新时间: 2025-09-26 17:59:51

领域: cs.CV,cs.AI

下载: http://arxiv.org/abs/2509.22645v1

		自动登录	找回密码
密码			立即注册

基于CLIP的类别增量学习的分层表示匹配

浏览过的版块