大模型之家讯 近日,字节跳动Seed团队携手香港大学与复旦大学,共同推出了创新的强化学习训练方法——POLARIS。该方法通过独特的Scaling RL策略,成功将小型模型的数学推理能力提升至与大型模型相当的水平,为AI小模型的优化开辟了一条崭新道路。目前,POLARIS的详细训练方法、训练数据、训练代码和实验模型已全部开源。
大模型之家讯 近日,字节跳动Seed团队携手香港大学与复旦大学,共同推出了创新的强化学习训练方法——POLARIS。该方法通过独特的Scaling RL策略,成功将小型模型的数学推理能力提升至与大型模型相当的水平,为AI小模型的优化开辟了一条崭新道路。目前,POLARIS的详细训练方法、训练数据、训练代码和实验模型已全部开源。