用现代BERT对专利语言模型进行预训练

于红博 · 发表于 2025-9-21 15:10:16

摘要: 基于Transformer的语言模型，如BERT，在自然语言处理中已经成为基础，但是它们在专业领域（如专利）中的性能下降，这些领域包含长篇、技术性强和结构化严谨的文本。先前针对专利NLP的方法主要依赖于对通用模型进行微调或预训练有限数据的领域自适应变体。在本研究中，我们使用ModernBERT架构和一个包含6000多万专利记录的筛选语料库，对专利领域进行了三个特定领域的掩码语言模型预训练。我们的方法包括架构优化，包括FlashAttention、rotary embeddings和GLU前向层。我们在四个下游专利分类任务上评估了我们的模型。我们的模型ModernBERT-base-PT，在四个数据集中的三个中始终优于通用ModernBERT基线，并且在基线PatentBERT上达到竞争性性能。与ModernBERT-base-VX和Mosaic-BERT-large的额外实验表明，扩大模型规模和定制令牌化进一步提高了选定任务的性能。值得注意的是，所有ModernBERT变体都保留了明显更快的推理速度，是PatentBERT的3倍，突显了它们在时间敏感应用中的适用性。这些结果强调了专门领域预训练和架构改进对专利NLP任务的好处。

更新时间: 2025-09-18 13:04:30

领域: cs.CL,cs.AI,cs.LG

下载: http://arxiv.org/abs/2509.14926v1

		自动登录	找回密码
密码			立即注册