摘要: 在机器学习中,主导范式是基于在某个测试集中所有样本的平均损失来评估模型的性能。这等同于在天气和气候环境中地理空间上平均性能,而未考虑人类发展和地理分布的非均匀性。我们引入了以地球为基础的预测分层评估(SAFE)软件包,用于阐明在地球上进行的一组预测的分层性能。SAFE整合了各种数据领域,通过不同属性关联的地理网格点进行分层:领土(通常是国家)、全球子区域、收入和土地覆盖(陆地或水域)。这使我们能够检查模型在不同属性的每个分层中的性能(例如,每个单独国家的准确性)。为了展示其重要性,我们利用SAFE来评估一系列最先进的基于人工智能的天气预测模型,发现它们在每个属性上都存在不同的预测技能差距。我们利用这一点,在不同的时间领先时期对各种气候变量进行了模型预测公平性的基准测试。通过超越全球平均指标,我们首次询问:模型在哪些地方表现最好或最差,哪些模型最公平?为了支持进一步在这个方向上的工作,SAFE软件包是开源的,可在https://github.com/N-Masi/safe获取。 更新时间: 2025-10-30 03:22:55 领域: cs.LG,cs.AI
|