|
摘要: 大型语言模型(LLMs)越来越多地应用于教育、临床和专业领域,但它们倾向于阿谀奉承——优先考虑用户同意而非独立思考——对可靠性构成风险。本研究介绍了一个框架,用于评估ChatGPT-4o、Claude-Sonnet和Gemini-1.5-Pro在AMPS(数学)和MedQuad(医疗建议)数据集中的阿谀奉承行为。在58.19%的情况下观察到了阿谀奉承行为,Gemini表现出最高的比例(62.47%),ChatGPT最低(56.71%)。43.52%的情况下出现了逐步阿谀奉承,导致正确答案,而14.66%的情况下观察到了逆向阿谀奉承,导致错误答案。先发制人的反驳明显比在上下文中的反驳具有更高的阿谀奉承率(61.75% vs. 56.52%,$Z=5.87$,$p<0.001$),特别是在计算任务中,逆向阿谀奉承显著增加(先发制人:8.13%,上下文:3.54%,$p<0.001$)。简单的反驳最大化了逐步阿谀奉承($Z=6.59$,$p<0.001$),而基于引文的反驳表现出最高的逆向率($Z=6.59$,$p<0.001$)。阿谀奉承行为表现出高的持久性(78.5%,95% CI:[77.2%,79.8%]),无论上下文或模型如何。这些发现强调了在结构化和动态领域部署LLMs的风险和机遇,为更安全的AI应用提供了关于及时编程和模型优化的见解。 更新时间: 2025-09-19 14:30:28 领域: cs.AI
|