|
摘要: 随着人工智能系统越来越多地评估其他人工智能输出,了解它们的评估行为对于防止级联偏见变得至关重要。本研究分析了由NVIDIA的描述任何模型生成的视觉语言描述,并由三个GPT变体(GPT-4o、GPT-4o-mini、GPT-5)进行评估,以揭示每个模型展示的独特“评估个性”、基础评估策略和偏见。GPT-4o-mini表现出系统一致性和最小方差,GPT-4o擅长错误检测,而GPT-5显示出极端保守性和高变异性。使用Gemini 2.5 Pro作为独立问题生成器的控制实验验证了这些个性是固有的模型属性而不是人为制品。通过生成的问题的语义相似性进行跨家族分析,发现显著的分歧:GPT模型在高相似性下聚集在一起,而Gemini展示出明显不同的评估策略。所有GPT模型都表现出一致的2:1偏向于负面评估而非积极确认,尽管这种模式似乎是家族特定的而非跨越人工智能架构的普遍现象。这些发现表明,评估能力与一般能力并不成比例,而强大的人工智能评估需要多样化的架构视角。 更新时间: 2025-09-19 14:57:35 领域: cs.AI,cs.CL
|