基于基础模型的跨平台推理能力评估

于红博 · 发表于 2025-11-2 18:27:46

摘要: 这篇论文展示了对当代基础模型推理能力进行全面跨平台评估，建立了跨三种计算范例的基础架构无关基准：HPC超级计算（MareNostrum 5）、云平台（Nebius AI Studio）和大学集群（一个带有八个H200 GPU的节点）。我们通过三个实验阶段对跨越八个学术领域（物理学、数学、化学、经济学、生物学、统计学、微积分和优化）的79个问题评估了15个基础模型：（1）基线建立：在MareNostrum 5上使用六个模型（Mixtral-8x7B、Phi-3、LLaMA 3.1-8B、Gemma-2-9b、Mistral-7B、OLMo-7B）评估了19个问题，建立了方法论和参考性能；（2）基础架构验证：在大学集群（包括Falcon-Mamba状态空间架构的七个模型）和Nebius AI Studio上重复了19个问题的基准测试（包括九个最新模型：Hermes-4 70B/405B、LLaMA 3.1-405B/3.3-70B、Qwen3 30B/235B、DeepSeek-R1、GPT-OSS 20B/120B），以确认基础架构无关的可重复性；（3）扩展评估：在大学集群和Nebius平台上对79个问题进行全面评估，探讨跨架构多样性的规模通用性。研究结果挑战了传统的扩展假设，确立了训练数据质量比模型大小更为关键，并为在教育、生产和研究环境中跨模型选择提供了可操作的指导方针。三种基础设施方法和79个问题基准测试使得在基础模型发展过程中能够纵向跟踪推理能力。

更新时间: 2025-10-30 17:31:03

领域: cs.AI,cs.CL

下载: http://arxiv.org/abs/2510.26732v1

		自动登录	找回密码
密码			立即注册