大模型需要什么样的智算中心？7位大咖谈AIGC时代算力挑战与风口丨GACS 2023

摘要：破解AI企业难盈利困局，智算中心建设将是关键。

9月14日-15日，2023全球AI芯片峰会（GACS 2023）在深圳市南山区圆满举行。在第二天举行的智算中心算力与网络高峰论坛上，来自商汤科技、中国移动研究院、浪潮信息、科华数据、首都在线、趋动科技、中科驭数等7家企业或机构的技术决策者及高管分别发表主题演讲，分享有关智算中心的探索与实践。

算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力，主要通过算力中心等算力基础设施向社会提供服务。10月8日，工业和信息化部、中央网信办、教育部、国家卫生健康委、中国人民银行、国务院国资委等6部门联合印发《算力基础设施高质量发展行动计划》，提出到2025年算力规模超过300EFLOPS，智能算力占比达到35%，足见对智能计算中心发展的高度重视。

当前，新一轮科技革命和产业变革正在向纵深演进，算力基础设施的重要性不断提升。聚焦生成式AI与大模型浪潮带来的算力机遇、挑战与创新，7位行业嘉宾分别从智算中心技术瓶颈与优化方向、大模型工程实践经验、模块化液冷解决方案、包含DPU的异构计算、GPU资源池化等方面，对智算中心如何进一步突破算力天花板、达成“双碳”目标进行分享和解读。

以下是此次论坛的核心干货：

一、商汤科技杨帆：AI基础设施是核心战略，三要素规模化可降低边际成本

商汤科技联合创始人、大装置事业群总裁杨帆指出AI行业的场景碎片化问题，强调行业场景极度细分，导致边际成本高，使得AI公司难以盈利。而解决之道是通过AI基础设施，达到算力、数据、算法等核心要素协同的最佳实践，提供给行业低成本、高效益的AI基础能力。

商汤认为，未来5年，AI基础设施可能会是行业的真正发展路径，是解决AI目前创造巨大价值但行业自身不盈利的困局，最有可能的方向之一，因此商汤科技也将其作为核心战略之一。

▲商汤科技联合创始人、大装置事业群总裁杨帆

随着AI技术的进步，智算逐渐成为一个独立的概念。

算力方面，商汤的临港智算中心AIDC截至今年8月底，线上算力超过6000P，可以在单一的网络训练中聚集4000以上的GPU卡，可支持20个千亿级别超大模型同时训练。

数据方面，商汤认为数据要素是产业智能化发展中最宝贵的资源。商汤大模型数据专家团队通过对世界上最大的公开爬取数据集之一Common Crawl中，3PB+的原始数据进行清洗、去重、有害信息消除、质量过滤等处理动作，生成约30TB的有效数据用于大模型训练，可极大降低AI技术研发之中的成本。

算法方面，改进的方向主要集中于优化性能和优化推理过程，用更低成本的推理去达到同样的效果。

把算力、数据、算法这三要素中基础的核心沉淀出来，更加规模化地向外提供，降低边际成本，扩大边际效益，这是商汤科技认为AI产业发展的方向。

二、中国移动陈佳媛：定义NICC新型智算中心技术体系，从五个方面进行系统性重构

中国移动研究院网络与IT技术研究所技术经理、主任研究员陈佳媛分享了中国移动的NICC（New Intelligent Computing Center）新型智算中心技术体系。

根据信通院发布的中国综合算力指数预测，到2025年，智能算力在全国的占比将从今年的25.4%上升到85%。中国移动研究院将智算中心的发展分为两个阶段，一是2025年之前的集群时期，主要面向百亿或者是千亿规模的大模型发展；其次是2025年之后的超级池化时期，将面向万亿级的大模型进行革新。

基于这个预判，中国移动定义了新型智算中心的技术体系，并从互联、算效、存储、平台、节能等五个方面进行系统性重构，牵引行业在多个技术领域形成共识，加快相关技术成熟。

▲中国移动研究院网络与IT技术研究所技术经理主任研究员陈佳媛

陈佳媛认为，在新互联方面，为支撑更大规模的模型训练，构建更大规模的卡间高速通信能力，产业应共同打造统一的计算总线协议，联合AI芯片、交换芯片、服务器等上下游企业共同推动国内高速互联技术生态成熟；对于更大规模的网络互联，中国移动已经创新性提出全调度以太网技术（GSE），革新以太网底层转发机制，实现三大核心机制转变，打造无阻塞、高带宽、低时延、自动化的新型智算中心网络，希望更多伙伴加入，加速落地应用的过程。

在新存储方面，为突破GPU显存容量的限制，简化AI模型开发，行业应共同加速内存池技术的成熟，使得CPU、GPU/AI加速卡等异构设备共享统一内存，为大模型海量数据的高效处理奠定基础。

在新算效方面，陈佳媛谈到，产业在聚焦GPU能力升级、探索存算一体等新型芯片的同时，更要关注CPU，GPU、DPU三大芯片协同，加快验证DPU在智算中心的场景应用，整体提升智算中心海量数据的处理能力。

在新平台方面，中国移动原创提出算力原生技术，打造“芯合”算力原生跨架构平台，目标是打破“框架+工具链+硬件”紧耦合的智算生态，屏蔽底层硬件差异，实现智算应用的跨架构迁移部署，目前中国移动已经实现至少三家芯片的跨架构迁移，希望未来能有更多AI芯片加入，构建算力原生的产业生态。

在新节能方面，针对智算中心不断攀升的能耗需求，产业标准化程度较低的问题，中国移动坚定推进液冷技术成熟，通过制定五大统一标准，在智算中心建设项目中大规模引入，实现极致能效、极高密度、极简运维的三“极”目标。

大模型时代，新型智算中心的相关技术受到国内外高度关注，但是目前产业存在多种解决方案，技术路线也尚未统一，希望产业凝聚力量，形成共识，共同推动智算关键技术成熟，共同繁荣国内AI生态发展。

三、浪潮信息Stephen Zhang：应对AIGC时代算力挑战，开放系统、多元算力是关键

算力是驱动大模型发展的核心引擎，但当前算力荒、算力贵的供给情况，恰恰成为了制约大模型发展的关键因素。浪潮信息开放加速计算产品总监Stephen Zhang从开放AI算力平台创新、促进多元算力融合发展、助推多元算力产业化应用等方面解读了生成式AI时代下算力的挑战与创新。

当前，多样化的技术路线带来了AI算力多元化的需求，但由于缺乏统一的业界规范，不同厂商的AI加速芯片存在显著差异，需要定制化的系统硬件平台承载，带来了更高的开发成本和更长的开发周期。同时，大模型训练需要更高性能、高互联、强扩展的大规模AI算力集群支撑。因此，在芯片技术创新突破的同时，产业界也需要从更高的系统层面共同应对大模型时代的算力挑战。

▲浪潮信息开放加速计算产品总监Stephen Zhang

浪潮信息基于开放的算力系统研发和大模型工程实践经验，发布了《开放加速规范AI服务器设计指南》，面向AIGC应用场景，细化完善了从节点到集群间的AI芯片应用部署全栈设计参考，并提供系统测试指导和性能评测调优方法。AI芯片厂商可以基于《指南》快速将符合开放加速规范的AI芯片落地成高可用高可靠高性能的大模型算力系统，提高系统适配和集群部署效率。

开放加速计算架构具有大算力、高互联和强扩展的特点，天然适用于超大规模神经网络并行训练，近年来已经取得丰富的产业实践成果。基于此，浪潮信息已经发布了三代AI服务器产品，和10余家芯片伙伴实现多元AI计算产品落地，并推出AIStation平台，可高效调度30余款AI芯片，充分释放多元算力价值。

同时，面向复杂的大模型训练工程，浪潮信息最新推出了OGAI大模型智算软件栈，能够为大模型业务提供AI算力系统环境部署、算力调度及开发管理能力的完整软件栈和工具链，高效释放算力系统性能，加速生成式AI产业创新步伐。

四、科华数据魏芳伟：模块化液冷一站式方案，助攻智算中心双碳目标

芯片的功耗在持续上升，单颗芯片功耗的逐渐增大。英特尔2023年第一季度发布的Max9462处理器，TDP达350W；英伟达2023年第一季度发布的HGX Grace Hopper Superchip Platform，其TDP高达1000W。如用风冷技术，将很难降低CPU、GPU表面温度。此外基于双碳要求，工信部于2021年发布新型数据中心发展行动计划，要求到2023年底，新建大型及以上数据中心PUE值降低到1.3以下，严寒和寒冷地区力争降低到1.25以下。

科华数据智慧温控制拓展部副总监魏芳伟谈道，目前主要的散热方式有6种，包括传统风冷、自然冷源风冷、冷板式液冷、喷淋式液冷、单相浸没式液冷以及两相浸没式液冷。其中，使用最多的是冷板式液冷和单相浸没式液冷。魏芳伟说，冷板式液冷适合绝大多数客户使用，优势是高性价比，低改造、低建设难度；浸没相变式液冷适合极致性能客户使用，特点是高性能、高投资。

▲科华数据智慧温控制拓展部副总监魏芳伟

魏芳伟解读了科华的模块化液冷一站式解决方案，主要包括三大类产品，包括主要应用在大型互联网IDC和超算中心的液冷微模块，应用在边缘计算领域的液冷集装箱，以及应用在挖潜和老旧机房改造的是液冷一体机。

液冷微模块的特点是高度集成，集成电源、配电、风冷空调、液冷CDU、二次侧管道等。每一个液冷项目具备特殊性，但是可以采用模组形式搭建多样化的适配载体，提高通用性。

液冷集装箱由各个模块组成，IT模块、电力模块、电池模块、消防模块、综合布线、液冷模块等可以根据单机柜功率、总功率、配电架构和占地面积等因素综合评估、选择、确定各模块配置数量，拼装组成数据中心。

五、首都在线牛继宾：解决智能算力平台建设痛点，已有几十个大模型客户成功案例

首都在线副总裁牛继宾谈道，构建新一代智能算力平台或是智算中心有很多痛点。一是英伟达高端算力供应链的问题，二是国产算力芯片的可用性问题，三是建成以后找不到足够多的运行客户。一个智算中心，如果解决不了以上几个问题，就建造不起来或者出现运营亏损。此外大规模内网互联、存储高速吞吐、模型优化服务、平台生态服务等技术因素也造成智算平台建设的技术瓶颈。

首都在线提出的解决方案是建设大规模异构智能算力平台。该平台拥有异构算力的资源池，以英伟达算力为主，以国产算力为辅，实现上做了从内网互连到公网的调优，模型的适配调优，并基于此提供GPU裸金属、GPU云主机、高速存储、数据库等多方面的云服务。经过一年半左右时间的迭代，首都在线打通了智算IaaS到智算MaaS，再到到客户的端到端应用场景，提供一套从生产到业务的端到端模型适配与服务平台，目前的客户包括国内数家TOP大模型客户以及终端的应用客户等。

▲首都在线副总裁牛继宾

牛继宾谈道，大模型的推理如果用8卡的机器，是严重浪费的，首都在线最早和国内大模型客户的在线推理业务合作，能够将千亿模型做到在两张24G显存、月成本只有千元左右的GPU云主机进行部署，而一台8卡A100成本得四五万元左右，相当于超过一个数量级的降低。“这样才能让最终的大模型应用走到每一个终端上。”

据他分享，首都在线目前已在搭建有商用级的千卡高端训练集群，能够直接响应大模型用户训练需求，同时建设了万卡的推理集群，目前已有数十个大模型客户案例、也有成功的将大模型服务转售给垂直场景用户的多个案例。国内依托于东输西算的业务形态进行部署，加快用户的响应，降低用户的研发与线上服务成本；海外在东南亚正在部署H100集群，在美国也上线了比较大的推理资源池。这就相当于打通了全球的训练、推理、网络。

六、中科驭数张宇：AI大模型需要新型算力底座，包含DPU的异构计算成主流

DPU是数据专用处理器，被称为继CPU、GPU之后数据中心的“第三块主力芯片”。DPU能够提供智算中心所必须的大带宽和低时延能力，使更多的CPU、GPU算力可以真正服务于业务，从而为新型智算中心提供更高效的算力底座，成为智算中心必备的核心组件。

中科驭数高级副总裁张宇强调了DPU和普惠算力在数智系统中的重要性。随着大模型和智能计算的崛起，传统的算力底座已不再满足需求成为瓶颈，AI大模型应用需要新型算力底座进行支撑。硬件架构突破以CPU为中心的体系，应用维度从芯片内、节点内向系统级分布式异构延伸，CPU+GPU+DPU+FPGA的异构计算成为主流趋势。在新的算力架构中，云、边、端共同构成了多层立体的泛在计算架构，通过与DPU的深度融合，构成新型算力底座。

▲中科驭数高级副总裁张宇

张宇谈道，大带宽、低时延，已成为AI大模型算力底座的核心诉求，而DPU可以提供这两项必须的能力，异构算力、三U一体成为算力底座主流的趋势。他认为对于所有的算力芯片而言，上层软件生态是最重要的，有时甚至会超出芯片本身设计的重要性。

中科驭数践行“IaaS on DPU”，从标准化的基础设施到客制化的业务应用均进行产品布局，历时五年打磨了开放DPU软件开发平台HADOS，具备丰富的算力能力接口，接口数量超过2000个，具有完备的生态兼容能力、多种开发维护工具，支持丰富的应用场景。

七、趋动科技刘渝：在业界率先提出GPU资源池化，软件定义优化AI算力供给

在AI大模型时代，英伟达的高端先进芯片难以采购，价格也是水涨船高。在巨大需求和AI算力供不应求情况下，趋动科技华南区技术总监刘渝认为应该优化GPU，也就是AI芯片和AI算力的供给模式。

传统的供给模式是物理卡挂载给AI应用使用，无论是基于物理机、容器或虚拟机，通过软件对GPU做简单的虚拟化切分，没有办法使算力资源动态满足不同AI应用的弹性需求。AI开发、训练、推理，这些不同的工作任务对于GPU资源的需求是不一样的。

▲趋动科技华南区技术总监刘渝

软件定义AI算力的解决方案，总体来说包含了六大典型应用场景：1、“隔空取物”，进行vGPU资源的远程调用；2、“化零为整”，通过软件进行GPU资源的聚合，节省算法人员的时间；3、“化整为零”，将GPU切分为多份，让多个AI任务叠加使用，比如推理场景；4、“显存扩展”，调用内存补显存；5、“随需应变”，通过软件进行资源动态伸缩，无需重启；6、“动态超卖”，资源高效轮转使用。

刘渝称，趋动科技在业界首提GPU资源池化的定义。趋动科技的OrionX GPU池化（GPU Pooling）软件处在驱动程序以上，属于标准化软件；对于AI应用和框架来说，不需要修改任何代码，就可以使用OrionX池化之后的GPU，对于用户来说也不需要改变任何的使用习惯。OrionX对GPU资源进行池化后共享，每人按需动态进行GPU挂载和释放，GPU硬件采购成本平均节省70%以上，GPU综合利用率平均提升4倍以上。