|
摘要: AI搜索依赖于将大型语言模型(LLMs)与广泛的外部知识源进行链接。然而,网页、PDF文件和其他原始文档并非天然适用于LLM:它们往往长篇、嘈杂且无结构。传统的检索方法将这些文档视为逐字文本并返回原始段落,将片段组装和上下文推理的负担留给LLM。这种差距凸显了需要一种重新定义模型与文档交互方式的新检索范式。 我们介绍了模型-文档协议(MDP),这是一个通用框架,通过可消费的知识表示形式将原始文本桥接到LLMs。MDP不将检索视为段落提取,而是定义了多条路径,将无结构文档转换为特定任务、适用于LLM的输入。这些路径包括代理推理,将原始证据整理成连贯的上下文;记忆基础,积累可重复使用的笔记以丰富推理;以及结构化利用,将文档编码为形式化表示,如图形或键-值缓存。这三条路径共享同一个目标:确保LLM接收到的不是原始片段,而是紧凑的、结构化的知识,直接可消费用于推理。 作为一个实例,我们提出了MDP-Agent,通过一种代理过程实现该协议:构建文档级要点记忆以获得全面覆盖,进行基于扩散的探索并进行垂直开发以揭示分层依赖关系,并应用Map-Reduce风格的综合将大规模证据集成到紅缩而足够的上下文中。对信息检索基准的实验表明,MDP-Agent优于基线,验证了MDP框架的合理性以及其代理实例的有效性。 更新时间: 2025-10-30 08:52:17 领域: cs.CL,cs.AI,cs.IR
|