大模型之家讯 英伟达与 MIT、香港大学、UC Berkeley 联合推出 Long-RL,这是面向长序列推理和多模态强化学习的全栈训练框架,支持小时级长视频 RL,单机可稳定训练 3600 帧(256k tokens)。
其核心是 MR-SP 并行框架,分并行编码的 Rollout 和序列并行预填充两阶段,能降低训练耗时和显存,使训练速度提升 2.1 倍。该框架适配多模型、算法和模态,团队还构建了 LongVILA-R1 训练框架,在长视频推理任务中表现出色。
大模型之家讯 英伟达与 MIT、香港大学、UC Berkeley 联合推出 Long-RL,这是面向长序列推理和多模态强化学习的全栈训练框架,支持小时级长视频 RL,单机可稳定训练 3600 帧(256k tokens)。
其核心是 MR-SP 并行框架,分并行编码的 Rollout 和序列并行预填充两阶段,能降低训练耗时和显存,使训练速度提升 2.1 倍。该框架适配多模型、算法和模态,团队还构建了 LongVILA-R1 训练框架,在长视频推理任务中表现出色。