全球最大超算Frontier成功使用AMD软硬件系统训练GPT-3.5级别大模型

大模型之家讯美国橡树岭国家实验室的全球最大超算Frontier最近取得了重要突破，仅使用其中8%左右的GPU，成功训练了一个GPT-3.5规模的大模型。这座超级计算机集合了37888个MI250X GPU和9472个Epyc7A53 CPU，研究人员使用ROCM软件平台在AMD硬件上突破了分布式训练模型的多个难点，建立了一套在AMD硬件上实现最先进的分布式训练算法和框架的技术框架。

这一成功案例为非英伟达和非CUDA平台上高效训练LLM（Large Language Model）提供了可行的技术框架，标志着AMD在大规模深度学习任务中的潜力。研究人员将这次经验总结成一篇详细的论文，描述了在Frontier上训练大模型过程中所遇到的挑战和克服的困难。

全球最大超算Frontier成功使用AMD软硬件系统训练GPT-3.5级别大模型

发表回复