|
摘要: 表格预测传统上依赖于梯度提升决策树和专门的深度学习模型,在任务中表现出色,但提供有限的可解释性和跨表格的弱传递性。大型语言模型(LLMs)承诺通过透明推理追踪实现跨任务适应性,然而它们在表格数据方面的潜力尚未完全实现。本文介绍了TabR1,这是第一个用于表格预测的推理LLM,具有多步推理。其核心是置换相对策略优化(PRPO),这是一种简单而高效的强化学习方法,将列置换不变性编码为结构先验。通过为每个样本构建多个保持标签的置换,并估计跨置换内部和优势,PRPO将稀疏奖励转化为密集学习信号,并改善泛化性能。在有限监督的情况下,PRPO激活LLMs的表格预测推理能力,增强了少样本和零样本性能以及可解释性。全面的实验表明,TabR1在全监督微调下达到了与强基线相媲美的性能。在零样本设置中,TabR1在32个样本的情况下接近了强基线的性能。此外,TabR1(8B)在各种任务中明显优于更大的LLMs,相对于DeepSeek-R1(685B)实现了高达53.17%的改进。 更新时间: 2025-10-23 16:22:59 领域: cs.LG,cs.AI
|