找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 29|回复: 0

KatFishNet:通过语言特征分析检测LLM生成的韩文文本

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 20:06:21 | 显示全部楼层 |阅读模式
摘要: 大型语言模型(LLMs)的快速发展增加了区分人类写作和LLM生成文本的难度。检测LLM生成的文本对维护学术诚信、防止抄袭、保护版权和确保道德研究实践至关重要。大多数先前关于检测LLM生成文本的研究主要集中在英文文本上。然而,具有独特形态和句法特征的语言需要专门的检测方法。它们独特的结构和使用模式可能会阻碍主要设计用于英语的方法的直接应用。在这些语言中,我们关注韩文,它具有相对灵活的间距规则、丰富的形态系统和与英语相比较少的逗号使用频率。我们介绍了KatFish,用于检测LLM生成的韩文文本的第一个基准数据集。该数据集包括由人类撰写和由四个LLMs生成的文本,跨越三种体裁。通过检查间距模式、词性多样性和逗号使用情况,我们揭示了人类写作和LLM生成的韩文文本之间的语言差异。基于这些观察,我们提出了KatFishNet,一种专门为韩文设计的检测方法。与表现最佳的现有检测方法相比,KatFishNet的平均AUROC高出19.78%。我们的代码和数据可在https://github.com/Shinwoo-Park/ ... linguistic_analysis上找到。
更新时间: 2025-09-19 04:46:10
领域: cs.CL,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 06:16 , Processed in 0.077931 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表