|
摘要: 大型语言模型(LLMs)往往生成词汇、语义和风格上同质的文本。这带来了知识崩溃的风险,即同质的LLMs会随着时间推移在可访问信息范围上收缩。现有关于同质化的研究受限于关注封闭性多选设置或模糊的语义特征,而不考虑跨时间和文化背景的趋势。为了克服这一问题,我们提出了一种新的方法来衡量认识多样性,即LLM生成的现实世界主张的变化,我们使用这个方法进行了广泛的LLM知识崩溃实证研究。我们测试了27个LLM,涵盖12个国家的155个主题,以及来自真实用户聊天的200个提示变体。在我们研究的主题中,我们发现尽管新模型往往会生成更多样化的主张,几乎所有模型的认识多样性都低于基本网络搜索。我们发现模型大小对认识多样性有负面影响,而检索增强生成(RAG)对其有积极影响,尽管RAG的改进在文化背景下有所不同。最后,与传统知识来源(维基百科)相比,我们发现特定国家的主张更多反映了英语而不是本地语言,突显了认识表达中的差距。 更新时间: 2025-10-30 14:52:48 领域: cs.CL,cs.AI,cs.CY,cs.IR,cs.LG
|