找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 24|回复: 0

量化狂热,推理黑洞,薛定谔的遵从,以及更多:探索GPT-OSS-20B

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-30 19:37:33 | 显示全部楼层 |阅读模式
摘要: OpenAI的GPT-OSS家族提供了具有明确思维链(CoT)推理和Harmony提示格式的开放权重语言模型。我们总结了对GPT-OSS-20B进行的广泛安全评估,探究了模型在不同对抗条件下的行为。使用Jailbreak Oracle(JO)[1],这是一个系统化的LLM评估工具,这项研究揭示了几种故障模式,包括量子狂热、推理黑洞、薛定谔的合规性、推理程序幻觉和链式提示。实验证明这些行为如何可以在GPT-OSS-20B模型上被利用,导致严重后果。
更新时间: 2025-09-28 13:44:37
领域: cs.AI,cs.CR

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 08:24 , Processed in 0.074591 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表