英伟达联合多机构推出 Long-RL，长视频训练提速翻倍

大模型之家讯英伟达与 MIT、香港大学、UC Berkeley 联合推出 Long-RL，这是面向长序列推理和多模态强化学习的全栈训练框架，支持小时级长视频 RL，单机可稳定训练 3600 帧（256k tokens）。
其核心是 MR-SP 并行框架，分并行编码的 Rollout 和序列并行预填充两阶段，能降低训练耗时和显存，使训练速度提升 2.1 倍。该框架适配多模型、算法和模态，团队还构建了 LongVILA-R1 训练框架，在长视频推理任务中表现出色。

英伟达联合多机构推出 Long-RL，长视频训练提速翻倍

发表回复