字节跳动Seed团队开源POLARIS强化学习训练方法

大模型之家讯近日，字节跳动Seed团队携手香港大学与复旦大学，共同推出了创新的强化学习训练方法——POLARIS。该方法通过独特的Scaling RL策略，成功将小型模型的数学推理能力提升至与大型模型相当的水平，为AI小模型的优化开辟了一条崭新道路。目前，POLARIS的详细训练方法、训练数据、训练代码和实验模型已全部开源。