TabR1：驯服用于表格推理的LLMs的GRPO

于红博 · 发表于 3 天前

摘要: 表格预测传统上依赖于梯度提升决策树和专门的深度学习模型，在任务中表现出色，但提供有限的可解释性和跨表格的弱传递性。大型语言模型（LLMs）承诺通过透明推理追踪实现跨任务适应性，然而它们在表格数据方面的潜力尚未完全实现。本文介绍了TabR1，这是第一个用于表格预测的推理LLM，具有多步推理。其核心是置换相对策略优化（PRPO），这是一种简单而高效的强化学习方法，将列置换不变性编码为结构先验。通过为每个样本构建多个保持标签的置换，并估计跨置换内部和优势，PRPO将稀疏奖励转化为密集学习信号，并改善泛化性能。在有限监督的情况下，PRPO激活LLMs的表格预测推理能力，增强了少样本和零样本性能以及可解释性。全面的实验表明，TabR1在全监督微调下达到了与强基线相媲美的性能。在零样本设置中，TabR1在32个样本的情况下接近了强基线的性能。此外，TabR1（8B）在各种任务中明显优于更大的LLMs，相对于DeepSeek-R1（685B）实现了高达53.17%的改进。

更新时间: 2025-10-23 16:22:59

领域: cs.LG,cs.AI

下载: http://arxiv.org/abs/2510.17385v2

		自动登录	找回密码
密码			立即注册

TabR1：驯服用于表格推理的LLMs的GRPO

浏览过的版块