|
摘要: N-gram新颖性广泛用于评估语言模型生成文本的能力是否超出其训练数据范围。最近,它还被采用作为衡量文本创造性的指标。然而,关于创造性的理论工作表明,这种方法可能是不够的,因为它没有考虑到创造性的双重性质:新颖性(文本的原创程度)和适切性(文本的合理性和实用性)。我们通过对7542个专家写手注释(n=26)的新颖性、实用性和合理性进行仔细阅读,探讨了创造性这一概念与n-gram新颖性之间的关系。我们发现,虽然n-gram新颖性与专家写手评定的创造性呈正相关,但大约91%由n-gram新颖性评定为前四分之一的表达并未被认为具有创造性,这警示我们不要单纯依赖于n-gram新颖性。此外,与人类撰写的文本不同,开源LLMs中较高的n-gram新颖性与较低的实用性相关。在一项与前沿闭源模型的初步研究中,我们进一步确认它们不太可能产生具有创造性的表达,与人类相比。利用我们的数据集,我们测试了零样本、少样本和微调模型能否识别具有创造性(写作的正面方面)和非实用性(负面方面)的表达。总体而言,前沿LLMs的性能远高于随机,但仍有改进的空间,尤其是在识别非实用性表达方面表现较差。我们进一步发现,最佳表现模型的LLM作为评委的新颖性得分能够预测专家写手的偏好。 更新时间: 2025-09-26 17:59:05 领域: cs.CL,cs.AI,cs.HC
|