百度智能云成功点亮国内首个自研万卡集群

志斌 • 2025年2月5日上午10:01 • 资讯

大模型之家讯近日，百度智能云宣布成功点亮昆仑芯三代万卡集群，这标志着国内首个自研万卡集群的正式诞生。未来，百度智能云还将进一步点亮3万卡集群，为AI算力领域带来前所未有的飞跃。

国产昆仑芯万卡集群以及未来三万卡集群的建设，面临着从硬件到软件的全方位技术挑战。为了应对这些挑战，百度在2024年9月升级了百舸AI异构计算平台至4.0版本。该平台围绕落地大模型全旅程的算力需求，在集群创建、开发实验、模型训练、模型推理四大方面，为企业提供了“多、快、稳、省”的AI基础设施，并在万卡集群的建设中发挥了至关重要的作用。

在硬件方面，百度突破了硬件扩展性瓶颈，如卡间互联的拓扑限制，避免了通信带宽成为瓶颈。同时，围绕芯片及集群功耗问题，百度采用了创新性散热方案，解决了万卡集群的能效与散热难题。在软件方面，百度完善了模型的分布式训练优化，采用高效并行化任务切分策略，将训练主流开源模型的集群MFU提升至58%。此外，百度还提供了容错与稳定性机制，保障了有效训练率达到98%。针对机间通信带宽需求，百度建设了超大规模HPN高性能网络，优化了拓扑结构，降低了通信瓶颈，带宽有效性达到90%以上。

昆仑芯作为百度自研的AI芯片，凭借其独特的技术优势，在百舸4.0的能力加持下，在生成式人工智能时代展现出了巨大的竞争力。未来一年，将是各种AI原生应用爆发的黄金时期。自研芯片和万卡集群的建成不仅为百度和客户提供了强大的算力支持，还有效提升了资源整体利用率，降低了大模型训练成本，推动了模型降本的趋势。

随着国产大模型的兴起，万卡集群已从单纯算力供给逐渐向“有效”算力供给过渡。通过模型优化、并行策略、有效训练率提升、动态资源分配等手段，百度智能云智能调度任务，将训练、微调、推理任务混合部署，最大化提升了集群综合利用率，降低了单位算力成本。

百度智能云将始终陪伴在所有企业身旁，通过本次万卡集群点亮和应用落地，持续为企业提供源源不断的稳定、高效的算力动能。

原创文章，作者：志斌，如若转载，请注明出处：http://damoai.com.cn/archives/8975