昆仑万维与南洋理工大学联合开发Q*算法,大幅提升大模型推理能力

大模型之家讯 近日,昆仑万维与新加坡南洋理工大学合作,成功开发了一种名为Q的算法,这种算法能显著提升现有大模型的推理能力。在GSM8K数据集上,Q将Llama-2-7b的准确率提升到80.8%,超过了ChatGPT;在MATH数据集上,Q将DeepSeek-Math-7b的准确率提升到55.4%,超过了Gemini Ultra;在MBPP数据集上,Q将CodeQwen1.5-7b-Chat的准确率提升到77.0%,缩小了与GPT-4在编程水平上的差距。

Q*能使小模型的推理能力达到大模型的水平,这不仅提升了小模型的性能,还减少了计算资源的需求,为人工智能的广泛应用带来了新的可能性,开创了高效智能的新纪元。

该项目的论文《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》已经公开发布。

论文链接:https://arxiv.org/abs/2406.14283

昆仑万维与南洋理工大学联合开发Q*算法,大幅提升大模型推理能力

打破OpenAI封锁,提升现有模型能力

自OpenAI的Q项目曝光后,业界展开了广泛讨论。现有信息显示,Q项目被视为OpenAI在探索人工通用智能(AGI)道路上的重要尝试,有望在数学问题解决、自主学习和自我改进等多个方面带来突破性进展。

不过,OpenAI尚未公开Q*算法的具体细节,因此其实际效果仍有待观察。

自Q项目曝光以来,昆仑万维一直密切关注其动向,并迅速成立研究小组开发自己的Q算法,旨在提升现有开源模型的推理能力。经过数月的研究,团队提出了一种新颖的Q*框架,并在GSM8K、MATH和MBPP数据集上分别超越了ChatGPT和Gemini Ultra。

全盘规划复杂推理任务

在论文《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》中,研究人员将大语言模型的推理过程分解为多个状态。对于每个状态,参考DeepCubeA的设计,通过将定义路径成本的g(s_t)函数和定义累计奖励的Q*(s_t, a_t)集成到同一个f(s_t)函数内,实现了对历史收益和未来期望的综合考虑。最后,利用A*搜索算法对状态进行最佳优先搜索,从而提升开源模型在推理任务上的性能。

昆仑万维与南洋理工大学联合开发Q*算法,大幅提升大模型推理能力

其中,g(s_t)表示当前轨迹中的多个历史状态的聚合收益。g(s_t)的函数形式可以人为定义,例如判断当前代码是否符合语法规则,或通过构建过程奖励模型(PRM)进行监督学习得到;聚合方式可以是求和、最大值、最小值等。

昆仑万维与南洋理工大学联合开发Q*算法,大幅提升大模型推理能力

为了获得状态-动作对(s_t, a_t)的最优Q值,研究人员在现有大模型策略生成的数据上,通过监督学习的方式训练了一个代理Q值模型。训练过程中的真实标签可以通过离线强化学习、蒙特卡罗采样估计和更强大的语言模型补全得到。

昆仑万维与南洋理工大学联合开发Q*算法,大幅提升大模型推理能力
昆仑万维与南洋理工大学联合开发Q*算法,大幅提升大模型推理能力

实验结果表明,昆仑万维提出的Q框架,显著提升了大模型的推理能力。在GSM8K数据集上,Q将Llama-2-7b的准确率提升到80.8%,超过了ChatGPT;在MATH数据集上,Q将DeepSeek-Math-7b的准确率提升到55.4%,超过了Gemini Ultra;在MBPP数据集上,Q将CodeQwen1.5-7b-Chat的准确率提升到77.0%,缩小了与GPT-4在编程水平上的差距。

研究证明,Q能使参数量仅为7b的小模型达到参数量大数十倍甚至百倍模型的推理能力,大幅提升模型性能,并显著减少计算资源需求。目前,Q的研究尚处于初期阶段,算法在各个环节还有改进空间。未来,昆仑万维将继续深入研究,不断提升国产开源模型的推理能力,打破OpenAI的封锁,为人工智能技术发展带来新的可能性。

原创文章,作者:志斌,如若转载,请注明出处:http://damoai.com.cn/archives/6037

(0)
上一篇 2024年6月25日 上午11:55
下一篇 2024年6月25日 下午5:47

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注