找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 34|回复: 0

OpenWHO:用于低资源语言健康翻译的文档级平行语料库

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 20:09:34 | 显示全部楼层 |阅读模式
摘要: 在机器翻译(MT)中,健康是一个高风险领域,其特点是广泛部署和领域特定词汇。然而,在这个领域中,低资源语言缺乏MT评估数据集。为了填补这一空白,我们介绍了OpenWHO,这是一个由2978个文档和26824个句子组成的文档级平行语料库,来源于世界卫生组织的电子学习平台。OpenWHO的材料由专家撰写,经过专业翻译,免受网络爬虫的干扰,覆盖了20多种语言,其中九种是低资源语言。利用这一新资源,我们评估了现代大型语言模型(LLMs)与传统MT模型的性能。我们的研究结果显示,LLMs始终优于传统MT模型,Gemini 2.5 Flash在我们的低资源测试集上比NLLB-54B提高了+4.79个ChrF分。此外,我们研究了LLM上下文利用如何影响准确性,发现文档级翻译的好处在专业领域如健康领域中最为显著。我们发布OpenWHO语料库,以鼓励在健康领域的低资源MT进一步研究。
更新时间: 2025-09-19 03:20:15
领域: cs.CL,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 08:38 , Processed in 0.071986 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表