找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 14|回复: 0

RLinf:通过宏观到微观流转变实现灵活高效的大规模强化学习

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 19:46:55 | 显示全部楼层 |阅读模式
摘要: 强化学习(RL)已经展示出在推动人工智能、智能代理和具身智能方面具有巨大潜力。然而,RL工作流程的固有异质性和动态性往往导致现有系统上的低硬件利用率和训练速度较慢。在本文中,我们提出了RLinf,这是一个基于我们的主要观察结果的高性能RL训练系统,该观察结果是高效RL训练的主要障碍在于系统的灵活性。为了最大化灵活性和效率,RLinf建立在一种称为宏观到微观流转换(M2Flow)的新型RL系统设计范式之上,该范式自动将高层、易于组合的RL工作流程在时间和空间维度上分解,并重新组合为优化的执行流。通过RLinf工作人员的自适应通信能力,我们设计了上下文切换和弹性流水线技术来实现M2Flow转换,并通过基于分析的调度策略生成最佳执行计划。对推理RL和具身RL任务的广泛评估表明,RLinf始终优于最先进的系统,在端到端训练吞吐量上实现了1.1倍至2.13倍的加速。
更新时间: 2025-09-19 13:24:17
领域: cs.LG,cs.AI,cs.DC

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 08:42 , Processed in 0.066665 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表