找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 4|回复: 0

RAIR:一个规则感知的基准,将具有挑战性的长尾和视觉显著子集结合在一起,用于电子商

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2026-1-4 22:58:48 | 显示全部楼层 |阅读模式
摘要: 搜索相关性在网络电子商务中起着核心作用。虽然大型语言模型(LLMs)在相关性任务上取得了显著的成果,但现有的基准测试缺乏足够的复杂性来全面评估模型,导致行业之间缺乏标准化的相关性评估指标。为了解决这一局限性,我们提出了带有图像的规则感知基准测试(RAIR),这是一个源自现实场景的中文数据集。RAIR建立了一个标准化的相关性评估框架,并提供一组通用规则,为标准化评估奠定了基础。此外,RAIR分析了当前相关性模型所需的关键能力,并引入了一个包括三个子集的综合数据集:(1)行业平衡采样的通用子集,用于评估基本模型能力;(2)专注于挑战性案例的长尾难子集,用于评估性能限制;(3)用于评估多模式理解能力的视觉显著性子集。我们对RAIR进行了14个开源和闭源模型的实验。结果表明,即使对于表现最佳的GPT-5来说,RAIR也提出了足够的挑战。RAIR数据现已可用,可作为行业相关性评估的基准测试,同时为普通LLM和视觉语言模型(VLM)评估提供新的见解。
更新时间: 2025-12-31 16:09:08
领域: cs.IR,cs.AI,cs.CL,cs.LG

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 17:00 , Processed in 0.084035 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表