找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 40|回复: 0

基于基础模型的跨平台推理能力评估

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 18:27:46 | 显示全部楼层 |阅读模式
摘要: 这篇论文展示了对当代基础模型推理能力进行全面跨平台评估,建立了跨三种计算范例的基础架构无关基准:HPC超级计算(MareNostrum 5)、云平台(Nebius AI Studio)和大学集群(一个带有八个H200 GPU的节点)。 我们通过三个实验阶段对跨越八个学术领域(物理学、数学、化学、经济学、生物学、统计学、微积分和优化)的79个问题评估了15个基础模型:(1)基线建立:在MareNostrum 5上使用六个模型(Mixtral-8x7B、Phi-3、LLaMA 3.1-8B、Gemma-2-9b、Mistral-7B、OLMo-7B)评估了19个问题,建立了方法论和参考性能;(2)基础架构验证:在大学集群(包括Falcon-Mamba状态空间架构的七个模型)和Nebius AI Studio上重复了19个问题的基准测试(包括九个最新模型:Hermes-4 70B/405B、LLaMA 3.1-405B/3.3-70B、Qwen3 30B/235B、DeepSeek-R1、GPT-OSS 20B/120B),以确认基础架构无关的可重复性;(3)扩展评估:在大学集群和Nebius平台上对79个问题进行全面评估,探讨跨架构多样性的规模通用性。 研究结果挑战了传统的扩展假设,确立了训练数据质量比模型大小更为关键,并为在教育、生产和研究环境中跨模型选择提供了可操作的指导方针。三种基础设施方法和79个问题基准测试使得在基础模型发展过程中能够纵向跟踪推理能力。
更新时间: 2025-10-30 17:31:03
领域: cs.AI,cs.CL

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 23:56 , Processed in 0.083804 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表