|
摘要: 语言解释是一个组合过程,通过该过程可以从其部分的含义推断出更复杂的语言结构的含义。大型语言模型具有显著的语言解释能力,并已成功应用于通过将问题映射到SPARQL查询来解释问题。一个未解之谜是这种解释过程的系统性如何。针对这个问题,在本文中,我们提出了一个用于研究LLMs解释问题能力在多大程度上实际上是组合的基准。为此,我们基于DBpedia中的图模式生成了三个不同难度的数据集,依靠柠檬词汇表进行动词化。我们以非常受控制的方式创建了我们的数据集,以测试LLMs解释结构复杂问题的能力,鉴于它们已经看到了原子构件。这使我们能够评估LLMs在能够解释其“理解”原子部分的复杂问题方面的能力。我们使用不同大小的模型进行实验,同时使用各种提示和少样本优化技术以及微调。我们的结果显示,在与样本优化相比,宏观$ F_1 $性能从$ 0.45 $下降到$ 0.26 $至$ 0.09 $。即使在输入中提供了所有必要的信息,对于最低复杂度的数据集,$ F_1 $分数也不会超过$ 0.57 $。因此,我们得出结论,LLMs在系统地和组合地解释问题并将其映射到SPARQL查询方面存在困难。 更新时间: 2025-10-30 16:25:15 领域: cs.AI,cs.CL
|