|
摘要: 尽管大型语言模型(LLMs)在自然语言生成任务中展现出令人印象深刻的性能,但它们生成真正创造性内容的能力——以新颖性、多样性、惊喜和质量为特征仍然有限。现有的增强LLM创造力的方法通常狭窄地关注多样性或特定任务,未能以一种可推广的方式解决创造力的多方面性质。在这项工作中,我们提出了创意偏好优化(CrPO),这是一种新颖的对齐方法,以模块化方式将多个创造性维度的信号注入到偏好优化目标中。我们使用CrPO和MuCE对几个模型进行了创造性增强版本的训练和评估,MuCE是一个新的大规模人类偏好数据集,涵盖了超过20万个人类生成的回应和来自30多个心理创造性评估的评分。我们的模型在自动化和人类评估中表现优于强基线,包括GPT-4o,在保持高输出质量的同时生成更多新颖、多样化和令人惊喜的生成物。NoveltyBench上的额外评估进一步证实了我们方法的通用性。综上所述,我们的结果表明,在偏好框架内直接优化创造性是推进LLMs创造能力的一个有前途的方向,而不会损害输出质量。 更新时间: 2025-09-19 11:33:34 领域: cs.CL,cs.AI
|