摘要: 大型语言模型(LLMs)的快速发展增加了区分人类写作和LLM生成文本的难度。检测LLM生成的文本对维护学术诚信、防止抄袭、保护版权和确保道德研究实践至关重要。大多数先前关于检测LLM生成文本的研究主要集中在英文文本上。然而,具有独特形态和句法特征的语言需要专门的检测方法。它们独特的结构和使用模式可能会阻碍主要设计用于英语的方法的直接应用。在这些语言中,我们关注韩文,它具有相对灵活的间距规则、丰富的形态系统和与英语相比较少的逗号使用频率。我们介绍了KatFish,用于检测LLM生成的韩文文本的第一个基准数据集。该数据集包括由人类撰写和由四个LLMs生成的文本,跨越三种体裁。通过检查间距模式、词性多样性和逗号使用情况,我们揭示了人类写作和LLM生成的韩文文本之间的语言差异。基于这些观察,我们提出了KatFishNet,一种专门为韩文设计的检测方法。与表现最佳的现有检测方法相比,KatFishNet的平均AUROC高出19.78%。我们的代码和数据可在https://github.com/Shinwoo-Park/ ... linguistic_analysis上找到。 更新时间: 2025-09-19 04:46:10 领域: cs.CL,cs.AI
|