找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 13|回复: 0

长猫-Flash技术报告

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 19:46:21 | 显示全部楼层 |阅读模式
摘要: 我们介绍了LongCat-Flash,这是一个拥有5600亿参数的专家混合(MoE)语言模型,旨在提高计算效率和先进代理能力。源自可扩展效率需求,LongCat-Flash采用了两种新颖设计:(a)无计算专家,可以实现动态计算预算分配,并根据上下文需求激活18.6B-31.3B(平均27B)每个标记,优化资源使用。(b)快捷连接MoE,扩大了计算-通信重叠窗口,与相同规模的模型相比,展示了推理效率和吞吐量的显着增益。我们开发了一个综合的大型模型扩展框架,结合超参数传递、模型增长初始化、多面稳定套件和确定性计算,实现稳定和可复现的训练。值得注意的是,利用可扩展的架构设计和基础设施工作之间的协同作用,我们在30天内完成了超过20万亿个标记的模型训练,同时实现了每秒100个标记(TPS)的推理,每百万输出标记费用为0.70美元。为了培养LongCat-Flash的代理智能,我们对优化混合进行了大规模的预训练,然后针对推理、代码和指令进行了有针对性的中期和后期训练,进一步利用合成数据和工具使用任务进行增强。全面评估表明,作为一个非思考基础模型,LongCat-Flash在其他领先模型中表现出高竞争性表现,在代理任务中具有突出优势。LongCat-Flash的模型检查点已开源以促进社区研究。LongCat Chat: https://longcat.ai Hugging Face: https://huggingface.co/meituan-longcat GitHub: https://github.com/meituan-longcat
更新时间: 2025-09-19 13:34:47
领域: cs.CL,cs.AI,cs.DC,cs.LG

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 08:42 , Processed in 0.076339 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表