Chunk知识生成模型用于增强信息检索：一种多任务学习方法

于红博 · 发表于 2025-9-22 20:05:21

摘要: 传统的查询扩展技术用于解决信息检索中的词汇不匹配问题是依赖于上下文的，可能导致性能下降。作为一种替代方案，文档扩展研究引起了关注，但现有方法如Doc2Query存在一些限制，包括过高的预处理成本、增加的索引大小以及生成内容的可靠性问题。为了缓解这些问题并寻求更有结构化和高效的替代方案，本研究提出了一种将文档分成块单位并为每个块生成文本数据的方法，以同时提高检索效率和准确性。所提出的“块知识生成模型”采用基于T5的多任务学习结构，同时从每个文档块中生成标题和候选问题，同时从用户查询中提取关键字。这种方法通过单一编码和两个解码过程同时生成和提取三种类型的语义信息，最大程度地提高了计算效率。生成的数据被用作检索系统中的附加信息。基于GPT的对305个查询-文档对的评估显示，使用所提出的模型进行检索在Top@10时达到了95.41%的准确率，表现优于文档块级别的检索。本研究通过提出一种同时从文档块中生成标题和候选问题的方法，为检索管道的应用提供了贡献，并通过定性评估展示了在大规模信息检索系统中通过改进检索准确性而提供的经验证据。

更新时间: 2025-09-19 06:32:30

领域: cs.IR,cs.AI

下载: http://arxiv.org/abs/2509.15658v1

		自动登录	找回密码
密码			立即注册

Chunk知识生成模型用于增强信息检索：一种多任务学习方法

浏览过的版块