零一万物发布对Yi-34B训练过程的说明

大模型之家讯 11月15日, 零一万物微信公众号发文,对Yi-34B训练过程作出回应。零一万物称,大模型持续发展与寻求突破口的核心点不仅在于架构,而是在于训练得到的参数。零一万物从零开始训练了Yi-34B和Yi-6B模型,并根据实际的训练框架重新实现了训练代码,用自建的数据管线构建了高质量配比的训练数据集。除此以外,在Infra部分进行算法、硬件、软件联合端到端优化,实现训练效率倍级提升和极强的容错能力等原创性突破。这些科学训模的系统性工作,往往比起基本模型结构能起到巨大的作用跟价值。
对于此前的争议,零一万物回应,在初次开源过程中,他们发现用和开源社区普遍使用的Llama架构会对开发者更为友好,对于沿用Llama部分推理代码经实验更名后的疏忽,原始出发点是为了充分测试模型,并非刻意隐瞒来源。零一万物对此提出说明,并表达诚挚的歉意,其正在各开源平台重新提交模型及代码并补充Llama协议副本的流程中,承诺尽速完成各开源社区的版本更新。

上一篇:

下一篇:

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注