量化狂热，推理黑洞，薛定谔的遵从，以及更多：探索GPT-OSS-20B

于红博 · 发表于 2025-9-30 19:37:33

摘要: OpenAI的GPT-OSS家族提供了具有明确思维链（CoT）推理和Harmony提示格式的开放权重语言模型。我们总结了对GPT-OSS-20B进行的广泛安全评估，探究了模型在不同对抗条件下的行为。使用Jailbreak Oracle（JO）[1]，这是一个系统化的LLM评估工具，这项研究揭示了几种故障模式，包括量子狂热、推理黑洞、薛定谔的合规性、推理程序幻觉和链式提示。实验证明这些行为如何可以在GPT-OSS-20B模型上被利用，导致严重后果。

更新时间: 2025-09-28 13:44:37

领域: cs.AI,cs.CR

下载: http://arxiv.org/abs/2509.23882v1

		自动登录	找回密码
密码			立即注册