当F1失败时：对话主题分割的粒度感知评估

于红博 · 发表于 2026-1-4 23:11:21

摘要: 对话主题分割支持摘要、检索、记忆管理和对话连续性。尽管经过数十年的研究，评估实践仍然主要由严格的边界匹配和基于F1的度量所主导。基于现代大型语言模型（LLM）的对话系统越来越依赖于分割来管理超出固定上下文窗口的对话历史。在这种系统中，无结构的上下文积累会降低效率和连贯性。本文介绍了一个评估框架，该框架报告了边界密度和段对齐诊断（纯度和覆盖率），同时还提供了容忍窗口的F1指标（W-F1）。通过将边界评分与边界选择分开，我们评估了在不同密度范围内的分割质量，而不是在单个操作点上评估。跨数据集评估表明，报告的性能差异通常反映了注释粒度不匹配，而不仅仅是边界放置质量。我们评估了跨越任务导向、开放领域、会议风格和合成交互的八个对话数据集上的结构不同的分割策略。基于边界的度量与边界密度强相关：阈值扫描产生的W-F1变化比方法之间的切换更大。这些发现支持将主题分割视为一个粒度选择问题，而不是预测一个单一正确边界集。这促使将边界评分与边界选择分开，以便在不同注释粒度下分析和调整分割。

更新时间: 2025-12-31 08:52:33

领域: cs.CL,cs.AI

下载: http://arxiv.org/abs/2512.17083v3

		自动登录	找回密码
密码			立即注册

当F1失败时：对话主题分割的粒度感知评估

浏览过的版块