百川智能与鹏城实验室开展合作，突破国产算力大模型长窗口技术

大模型之家讯 11月16日，百川智能与鹏城实验室（国家级科研平台）展开合作，合作研发基于国产算力的128K长窗口大模型“鹏城-百川·脑海33B”，未来可升级至192K，是基于国产算力训练的最长上下文窗口。

据了解，为了更好地提升“鹏城-百川·脑海33B”上下文窗口长度和模型整体性能，百川智能和鹏城实验室对模型进行了全流程优化。在数据集构建方面，采用精细的数据构造，实现了段落、句子粒度的自动化数据过滤、选择、配比，良好的提升了数据质量；在训练架构上，通过NormHead、max-Z-Loss、dynamic-LR等自研或业界领先的模型训练优化技术，对Transformer模块进行深度优化，确保模型收敛稳定的同时，全面提升了模型优化效率和最终效果；此外，还在全生命周期的模型工具集中，通过与北京大学王亦洲、杨耀东老师团队的合作，首创了带安全约束的RLHF对齐技术，有效提升了模型内容生成质量和安全性。

百川智能与鹏城实验室开展合作，突破国产算力大模型长窗口技术

发表回复