摘要: 我们介绍了Aeolus,这是一个大规模的多模态航班延误数据集,旨在推动航班延误预测研究并支持基于表格数据的基础模型的开发。该领域现有的数据集通常局限于平面表格结构,并未捕捉延误传播中固有的时空动态。Aeolus通过提供三个对齐的模态来解决这一限制:(i)一个包含超过5000万次飞行的具有丰富操作、气象和机场级特征的表格数据集;(ii)一个飞行链模块,模拟延误在连续飞行段上的传播,捕捉上游和下游的依赖关系;以及(iii)一个飞行网络图,编码共享飞机、机组和机场资源连接,实现跨飞行的关系推理。该数据集经过精心构建,具有时间分割、全面特征和严格的泄漏预防,以支持真实和可重现的机器学习评估。Aeolus支持广泛的任务,包括回归、分类、时间结构建模和图学习,成为表格、序列和图模态之间的统一基准。我们发布了基准实验和预处理工具,以促进采用。Aeolus填补了领域特定建模和通用结构化数据研究的关键空白。我们的源代码和数据可以在https://github.com/Flnny/Delay-data 上访问。 更新时间: 2025-10-30 15:41:43 领域: cs.LG,cs.AI
|