找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 17|回复: 0

用现代BERT对专利语言模型进行预训练

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-21 15:10:16 | 显示全部楼层 |阅读模式
摘要: 基于Transformer的语言模型,如BERT,在自然语言处理中已经成为基础,但是它们在专业领域(如专利)中的性能下降,这些领域包含长篇、技术性强和结构化严谨的文本。先前针对专利NLP的方法主要依赖于对通用模型进行微调或预训练有限数据的领域自适应变体。在本研究中,我们使用ModernBERT架构和一个包含6000多万专利记录的筛选语料库,对专利领域进行了三个特定领域的掩码语言模型预训练。我们的方法包括架构优化,包括FlashAttention、rotary embeddings和GLU前向层。我们在四个下游专利分类任务上评估了我们的模型。我们的模型ModernBERT-base-PT,在四个数据集中的三个中始终优于通用ModernBERT基线,并且在基线PatentBERT上达到竞争性性能。与ModernBERT-base-VX和Mosaic-BERT-large的额外实验表明,扩大模型规模和定制令牌化进一步提高了选定任务的性能。值得注意的是,所有ModernBERT变体都保留了明显更快的推理速度,是PatentBERT的3倍,突显了它们在时间敏感应用中的适用性。这些结果强调了专门领域预训练和架构改进对专利NLP任务的好处。
更新时间: 2025-09-18 13:04:30
领域: cs.CL,cs.AI,cs.LG

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-11-1 15:18 , Processed in 0.071869 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表