找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 12|回复: 0

更聪明:一种数据高效的框架,通过自我增强的大型语言模型改进毒性检测并提供解释

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-21 14:45:34 | 显示全部楼层 |阅读模式
摘要: 警告:本文包含一些具有攻击性的内容示例。有毒内容在社交媒体平台上变得无处不在。我们引入了SMARTER,这是一个利用大型语言模型(LLMs)进行可解释内容管理的数据高效的两阶段框架。在第一阶段,我们利用LLMs的输出来生成合成解释,以便对正确和不正确的标签进行对齐,通过最少的人工监督实现偏好优化。在第二阶段,我们通过交叉模型训练来提高解释质量,使较弱的模型在风格和语义上与较强的模型对齐。对三个基准任务——HateXplain、潜在仇恨和隐性仇恨进行的实验表明,SMARTER使LLMs能够在仅使用部分完整训练数据的情况下,比标准少样本基线实现高达13.5%的macro-F1改进。我们的框架通过利用LLMs自我改进的能力,为低资源环境提供了一种可扩展的策略,用于分类和解释。
更新时间: 2025-09-18 17:30:36
领域: cs.CL,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-11-2 07:15 , Processed in 0.067378 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表