英伟达联合多机构推出 Long-RL,长视频训练提速翻倍

大模型之家讯 英伟达与 MIT、香港大学、UC Berkeley 联合推出 Long-RL,这是面向长序列推理和多模态强化学习的全栈训练框架,支持小时级长视频 RL,单机可稳定训练 3600 帧(256k tokens)。
其核心是 MR-SP 并行框架,分并行编码的 Rollout 和序列并行预填充两阶段,能降低训练耗时和显存,使训练速度提升 2.1 倍。该框架适配多模型、算法和模态,团队还构建了 LongVILA-R1 训练框架,在长视频推理任务中表现出色。

上一篇:

下一篇:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注