国内首个千亿级MoE架构大模型开源

大模型之家讯 今天,APUS与新旦智能联合训练、研发的千亿MoE(Mixture of Experts)架构大模型,在GitHub上正式开源,该模型可以在低端算力芯片4090上运行,综合性能达到了GPT-4 的90%。APUS-xDAN大模型4.0(MoE)采用GPT4类似的MoE架构,特点是多专家模型组合,同时激活使用只有2个子模块,实际运行效率对比传统Dense同尺寸模型效率提升200%,推理成本下降400%。

上一篇:

下一篇:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注