|
摘要: 高风险决策涉及对未来的不确定性进行推理。在这项工作中,我们训练语言模型对开放式预测问题进行预测。为了扩大训练数据规模,我们使用全自动、谨慎筛选的方法从每日新闻报道的全球事件中合成新颖的预测问题。我们在我们的数据集OpenForesight上训练Qwen3思维模型。为了在训练和评估过程中防止未来信息的泄漏,我们使用离线新闻语料库,用于数据生成和在我们的预测系统中检索。在一个小的验证集的指导下,我们展示了检索的好处,以及改进的强化学习(RL)奖励函数。一旦我们获得最终的预测系统,我们在2025年5月至8月之间进行留置测试。我们专门的模型OpenForecaster 8B与更大的专有模型相匹配,我们的训练提高了预测的准确性、校准性和一致性。我们发现,从预测训练中获得的校准改进可以推广到流行的基准测试中。我们开源所有我们的模型、代码和数据,以使语言模型预测研究广泛可访问。 更新时间: 2025-12-31 18:59:51 领域: cs.LG,cs.CL
|