百川智能与鹏城实验室开展合作,突破国产算力大模型长窗口技术

大模型之家讯 11月16日,百川智能与鹏城实验室(国家级科研平台)展开合作,合作研发基于国产算力的128K长窗口大模型“鹏城-百川·脑海33B”,未来可升级至192K,是基于国产算力训练的最长上下文窗口。

据了解,为了更好地提升“鹏城-百川·脑海33B”上下文窗口长度和模型整体性能,百川智能和鹏城实验室对模型进行了全流程优化。在数据集构建方面,采用精细的数据构造,实现了段落、句子粒度的自动化数据过滤、选择、配比,良好的提升了数据质量;在训练架构上,通过NormHead、max-Z-Loss、dynamic-LR等自研或业界领先的模型训练优化技术,对Transformer模块进行深度优化,确保模型收敛稳定的同时,全面提升了模型优化效率和最终效果;此外,还在全生命周期的模型工具集中,通过与北京大学王亦洲、杨耀东老师团队的合作,首创了带安全约束的RLHF对齐技术,有效提升了模型内容生成质量和安全性。

上一篇:

下一篇:

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注