找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 3|回复: 0

量化文本嵌入模型中的位置偏差

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2026-1-4 23:21:32 | 显示全部楼层 |阅读模式
摘要: 嵌入模型对信息检索(IR)和语义相似度测量任务至关重要,然而它们对于较长文本和相关位置偏差的处理仍未被充分探索。在这项研究中,我们调查了内容位置和输入大小对文本嵌入的影响。我们的实验显示,无论嵌入模型的位置编码机制如何,它们都不成比例地优先考虑输入的开头部分。消融研究表明,在文档开头插入无关文本或删除部分文本会导致修改后的嵌入与原始嵌入之间的余弦相似度降低高达12.3%,比在文档末尾进行消融更高。回归分析进一步确认了这种偏见,随着位置远离开头,即使与内容无关,句子重要性也会下降。我们假设这种效应源于预处理策略和选择的位置编码技术。这些发现量化了检索系统的敏感性,并提出了一个新的视角来评估嵌入模型的稳健性。
更新时间: 2025-12-31 03:56:06
领域: cs.CL,cs.AI,cs.IR

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 14:32 , Processed in 0.089775 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表