大模型之家讯 美国橡树岭国家实验室的全球最大超算Frontier最近取得了重要突破,仅使用其中8%左右的GPU,成功训练了一个GPT-3.5规模的大模型。这座超级计算机集合了37888个MI250X GPU和9472个Epyc7A53 CPU,研究人员使用ROCM软件平台在AMD硬件上突破了分布式训练模型的多个难点,建立了一套在AMD硬件上实现最先进的分布式训练算法和框架的技术框架。
这一成功案例为非英伟达和非CUDA平台上高效训练LLM(Large Language Model)提供了可行的技术框架,标志着AMD在大规模深度学习任务中的潜力。研究人员将这次经验总结成一篇详细的论文,描述了在Frontier上训练大模型过程中所遇到的挑战和克服的困难。