|
摘要: 这篇论文展示了对当代基础模型推理能力进行全面跨平台评估,建立了跨三种计算范例的基础架构无关基准:HPC超级计算(MareNostrum 5)、云平台(Nebius AI Studio)和大学集群(一个带有八个H200 GPU的节点)。 我们通过三个实验阶段对跨越八个学术领域(物理学、数学、化学、经济学、生物学、统计学、微积分和优化)的79个问题评估了15个基础模型:(1)基线建立:在MareNostrum 5上使用六个模型(Mixtral-8x7B、Phi-3、LLaMA 3.1-8B、Gemma-2-9b、Mistral-7B、OLMo-7B)评估了19个问题,建立了方法论和参考性能;(2)基础架构验证:在大学集群(包括Falcon-Mamba状态空间架构的七个模型)和Nebius AI Studio上重复了19个问题的基准测试(包括九个最新模型:Hermes-4 70B/405B、LLaMA 3.1-405B/3.3-70B、Qwen3 30B/235B、DeepSeek-R1、GPT-OSS 20B/120B),以确认基础架构无关的可重复性;(3)扩展评估:在大学集群和Nebius平台上对79个问题进行全面评估,探讨跨架构多样性的规模通用性。 研究结果挑战了传统的扩展假设,确立了训练数据质量比模型大小更为关键,并为在教育、生产和研究环境中跨模型选择提供了可操作的指导方针。三种基础设施方法和79个问题基准测试使得在基础模型发展过程中能够纵向跟踪推理能力。 更新时间: 2025-10-30 17:31:03 领域: cs.AI,cs.CL
|