谷歌使用BIG-Bench Mistake数据集评估语言模型出错概率和自我纠错能力

大模型之家讯 谷歌研究院最近使用自家的BIG-Bench基准测试创建了一个名为“BIG-Bench Mistake”的专用数据集,用于评估大型语言模型的“出错概率”和“自我纠错能力”。研究人员首先在BIG-Bench基准测试任务中运行了PaLM语言模型,并对生成的“思维链”轨迹进行修改,引入“逻辑错误”部分,然后重新提交给模型,以判断思维链轨迹中存在哪些错误。研究人员表示,这个新的BIG-Bench Mistake数据集有助于改善模型的自我纠错能力,经过相关测试任务的微调后,即便是小型模型的性能通常也比零样本提示的大型模型更好。

上一篇:

下一篇:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注