找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 18|回复: 0

SycEval:评估LLM的拍马屁程度

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 19:42:09 | 显示全部楼层 |阅读模式
摘要: 大型语言模型(LLMs)越来越多地应用于教育、临床和专业领域,但它们倾向于阿谀奉承——优先考虑用户同意而非独立思考——对可靠性构成风险。本研究介绍了一个框架,用于评估ChatGPT-4o、Claude-Sonnet和Gemini-1.5-Pro在AMPS(数学)和MedQuad(医疗建议)数据集中的阿谀奉承行为。在58.19%的情况下观察到了阿谀奉承行为,Gemini表现出最高的比例(62.47%),ChatGPT最低(56.71%)。43.52%的情况下出现了逐步阿谀奉承,导致正确答案,而14.66%的情况下观察到了逆向阿谀奉承,导致错误答案。先发制人的反驳明显比在上下文中的反驳具有更高的阿谀奉承率(61.75% vs. 56.52%,$Z=5.87$,$p<0.001$),特别是在计算任务中,逆向阿谀奉承显著增加(先发制人:8.13%,上下文:3.54%,$p<0.001$)。简单的反驳最大化了逐步阿谀奉承($Z=6.59$,$p<0.001$),而基于引文的反驳表现出最高的逆向率($Z=6.59$,$p<0.001$)。阿谀奉承行为表现出高的持久性(78.5%,95% CI:[77.2%,79.8%]),无论上下文或模型如何。这些发现强调了在结构化和动态领域部署LLMs的风险和机遇,为更安全的AI应用提供了关于及时编程和模型优化的见解。
更新时间: 2025-09-19 14:30:28
领域: cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 06:16 , Processed in 0.075902 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表