字节跳动Seed团队开源POLARIS强化学习训练方法

大模型之家讯 近日,字节跳动Seed团队携手香港大学与复旦大学,共同推出了创新的强化学习训练方法——POLARIS。该方法通过独特的Scaling RL策略,成功将小型模型的数学推理能力提升至与大型模型相当的水平,为AI小模型的优化开辟了一条崭新道路。目前,POLARIS的详细训练方法、训练数据、训练代码和实验模型已全部开源。

上一篇:

下一篇:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注