找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 1|回复: 0

当F1失败时:对话主题分割的粒度感知评估

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2026-1-4 23:11:21 | 显示全部楼层 |阅读模式
摘要: 对话主题分割支持摘要、检索、记忆管理和对话连续性。尽管经过数十年的研究,评估实践仍然主要由严格的边界匹配和基于F1的度量所主导。基于现代大型语言模型(LLM)的对话系统越来越依赖于分割来管理超出固定上下文窗口的对话历史。在这种系统中,无结构的上下文积累会降低效率和连贯性。 本文介绍了一个评估框架,该框架报告了边界密度和段对齐诊断(纯度和覆盖率),同时还提供了容忍窗口的F1指标(W-F1)。通过将边界评分与边界选择分开,我们评估了在不同密度范围内的分割质量,而不是在单个操作点上评估。跨数据集评估表明,报告的性能差异通常反映了注释粒度不匹配,而不仅仅是边界放置质量。 我们评估了跨越任务导向、开放领域、会议风格和合成交互的八个对话数据集上的结构不同的分割策略。基于边界的度量与边界密度强相关:阈值扫描产生的W-F1变化比方法之间的切换更大。这些发现支持将主题分割视为一个粒度选择问题,而不是预测一个单一正确边界集。这促使将边界评分与边界选择分开,以便在不同注释粒度下分析和调整分割。
更新时间: 2025-12-31 08:52:33
领域: cs.CL,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 15:41 , Processed in 0.077765 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表