苹果新研究提升服务大模型效率

大模型之家讯 3月14日，苹果研究人员发布论文，推出了一种用于大型语言模型中快速推测解码的Recurrent Drafter，这种改进后的推测解码方法可以提高服务大型语言模型的效率。Recurrent Drafter利用了双模型推测解码方法和单模型方法Medusa。研究人员通过实验证明了这种方法在几个主流开源大型语言模型上的有效性。