秦淮数据张炳华:大模型驱动,智算中心迎接新机遇与挑战

大模型之家讯 9月28日,在2024中国算力大会上,秦淮数据集团CTO张炳华发表了题为《智算时代起浪潮,数据中心迎新机》的主旨演讲,聚焦于智能计算中心在大模型时代所面临的挑战与机遇。他强调,随着大模型和算力需求的迅速增长,传统的IDC(互联网数据中心)正向AIDC(人工智能数据中心)转型,并且这种转型对中国数据中心建设提出了全新的要求。

秦淮数据张炳华:大模型驱动,智算中心迎接新机遇与挑战
-36.109766364097595,0.568804033100605,40.01518189907074,-0.9831991977989674,2.749771997332573,25.209134817123413,-39.57298994064331,14.599545300006866,12.835423648357391,0.46696695499122143,7.1824222803115845,8.56771245598793,0.5470157135277987,-14.526031911373138,-2.372712828218937,-7.986353011801839,12.929458916187286,2.260180003941059,-2.96301506459713,0.0627269851975143,-0.15945397317409515,-7.986353011801839,-0.043521952466107905

张炳华首先分析了大模型时代对算力的极大需求。 他指出,随着AI模型的快速发展,参数规模从GPT-2的150亿到GPT-4的18万亿,数据和计算能力的需求急剧增加。与此同时,芯片技术的迭代,尤其是从CPU到GPU的过渡,也推动了数据中心从传统模式向高效能智算中心的转变。他指出:“过去十几年,CPU功耗增加了1倍,而GPU的功耗则增加了8倍,这使得数据中心必须应对新的能耗挑战。”

关于智能计算中心面临的挑战,张炳华提出了五大关键点

  1. 大规模算力需求:大模型的应用需要更大的算力规模,单台GPU服务器的功耗和计算能力成倍增加,要求数据中心提供更强大的处理能力。
  2. 多样化算力支持:为了应对不同AI应用场景,智算中心必须具有更高的弹性,包括支持风冷与液冷的切换及扩展。
  3. 高效能管理:随着算力规模和能耗的增加,智算中心需要实现更低的PUE(电能使用效率),以减少电力消耗并提升计算效率。
  4. 智能化管理:随着数据中心规模的扩大,传统的人工管理方式难以应对,AI工具的应用成为提升管理效率的关键。
  5. 高效冷却系统:为了保持服务器的稳定运行,秦淮数据创新了冷却系统,从全风冷到液冷、磁悬浮相变系统等技术,都在为提高能效服务。

张炳华还特别强调了技术创新对智算中心的支撑作用。他说:“AIDC的本质是如何高效地将电力转化为算力,或者将瓦特转化为比特。” 为此,秦淮数据在供电系统设计上采用了全模块化、超融合的方式,大大提高了供电效率,并且通过分布式冗余设计保障系统的高可靠性。他还指出,秦淮数据通过积极布局国内外市场,尤其是在中国区和东南亚地区,构建了强大的智算基础设施网络,总容量达到1.6GW,其中国内部分接近900MW,海外布局则接近700MW。

此外,张炳华透露,秦淮数据在智算中心的冷却标准化上也走在行业前列。他表示:“我们牵头在ODCC(开放数据中心委员会)制定了冷板液冷的全生命周期质量控制标准,从系统设计到产品规划,再到施工质量与运维,形成了完整的标准化体系。” 这一标准的出台将为行业提供重要的参考,并有助于推动智算中心建设的规范化和高效化。

最后,张炳华强调,随着AI时代的到来,智算中心的建设速度和质量将成为未来产业发展的关键驱动力。他呼吁行业各方加强合作,共同推动技术创新,满足大模型时代日益增长的算力需求。

原创文章,作者:志斌,如若转载,请注明出处:http://damoai.com.cn/archives/7446

(0)
上一篇 2024年9月28日 下午9:18
下一篇 2024年9月28日 下午9:32

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注