找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 7|回复: 0

TabR1:驯服用于表格推理的LLMs的GRPO

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 3 天前 | 显示全部楼层 |阅读模式
摘要: 表格预测传统上依赖于梯度提升决策树和专门的深度学习模型,在任务中表现出色,但提供有限的可解释性和跨表格的弱传递性。大型语言模型(LLMs)承诺通过透明推理追踪实现跨任务适应性,然而它们在表格数据方面的潜力尚未完全实现。本文介绍了TabR1,这是第一个用于表格预测的推理LLM,具有多步推理。其核心是置换相对策略优化(PRPO),这是一种简单而高效的强化学习方法,将列置换不变性编码为结构先验。通过为每个样本构建多个保持标签的置换,并估计跨置换内部和优势,PRPO将稀疏奖励转化为密集学习信号,并改善泛化性能。在有限监督的情况下,PRPO激活LLMs的表格预测推理能力,增强了少样本和零样本性能以及可解释性。全面的实验表明,TabR1在全监督微调下达到了与强基线相媲美的性能。在零样本设置中,TabR1在32个样本的情况下接近了强基线的性能。此外,TabR1(8B)在各种任务中明显优于更大的LLMs,相对于DeepSeek-R1(685B)实现了高达53.17%的改进。
更新时间: 2025-10-23 16:22:59
领域: cs.LG,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 05:57 , Processed in 0.068298 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表