自从2022年底ChatGPT横空出世,全球各大互联网巨头相继发布通用大模型。这些通用大模型的训练需要千亿、甚至万亿级参数,以及上千GB的高质量数据。
国内外大模型参数量示例
数据来源:中金公司
智算中心项目纷纷加快上马
据Open AI披露,ChatGPT的总算力消耗约为3640PF-days,需要7~8个投资规模30亿、单体算力500P的数据中心才能支撑运行。如此规模和复杂性需要高性能的计算设备和大规模的并行计算能力,导致对智算中心的需求暴增。
据不完全统计,2021年至2023年,国内各地实现多家智算中心的完工、揭牌、上线,支撑通用大模型研发及AIGC等行业应用。
近年来我国智算中心项目一览表
智算中心 | 运营状态 | 算力情况 |
北京昇腾人工智能计算中心 | 2023年2月上线 | 一期100P/远期1000P |
天津人工智能计算中心 | 2022年12月上线 | 300P |
河北人工智能计算中心 | 2022年2月揭牌 | 计划100P |
济南人工智能计算中心 | 已接入中国算力网 | 400P |
青岛人工智能计算中心 | 已接入中国算力网 | 100P |
南京鲲鹏·昇腾人工智能计算中心 | 2021年7月上线 | 800P |
南京智能计算中心 | 2021年7月运营 | 800P |
商汤人工智能计算中心 | 2022年1月投产 | 峰值3740P |
杭州人工智能计算中心 | 2022年5月上线 | 40P |
中国-东盟人工智能计算中心 | 2022年9月揭牌 | 一期40P |
福建人工智能计算中心 | 2023年4月揭牌 | 一期105P/总体400P |
深圳人工智能融合赋能中心 | 2021年12月上线 | 一期100P/总体300P |
广州人工智能公共算力中心 | 2022年9月上线 | 一期100P/五年1000P |
浙江“乌镇之光”超算中心 | 2021年9月上线 | 180P |
宁波人工智能超算中心 | 2023年1月上线 | 一期100P/二期300P |
阿里云张北超级智算中心 | 2022年8月上线 | 12000P |
数据来源:根据公开资料整理
DPU为何被誉为“第三颗主力芯片”?
DPU(Data Processing Unit)是以数据处理为核心的专用数据处理单元,是对传统计算资源的网络、安全和存储的卸载平台。2020年NVIDIA公司发布的DPU产品战略中将其定位为数据中心继CPU和GPU之后的“第三颗主力芯片”。
目前,全球异构芯片的发展日新月异,DPU 作为一类新兴计算芯片,能够将存储、安全、虚拟化等工作负载从 CPU 上卸载到自身,进而提升数据中心等算力基础设施的效率,减少能耗浪费,降低成本,是构建新型算力基础设施的重要基础,是国家由算力大国向算力强国演进的支撑,将成为未来全球算力产业竞争的焦点。
三大主力芯片对比分析表
芯片 | 概念 | 场景 |
CPU | Central Processing Unit,中央处理器 | 用于通用计算 |
GPU | Graphic Processing Unit,图形处理器 | 用于加速计算,适合图形处理、AI等 |
DPU | Data Processing Unit,数据处理器 |
实现安全的、裸性能的、云原生的下一代云上大规模计算 |
为什么在 CPU、GPU 之外还需要 DPU呢?因为大数据和5G 时代,在AI、边缘计算等场景下,网络数据不仅需要被传输(交给CPU等处理),还需要整个加工过程更加实时和海量,最好面向具体应用,根据应用需要处理所有网络中的数据,使得CPU得以专注于上层应用的流程控制等方面。因此,GPU是在CPU之外提供图形和深度学习等场景的加速,而DPU则是在CPU之外提供网络数据场景的加速。
智算中心时代,DPU的春天就要来了
根据中科院计算所发布的《DPU技术白皮书》预计,假设每年新增服务器1500 万台,每台服务器对应一颗或多可DPU(类比网卡配置),假设每颗DPU以1万元计算。由此可以推算,DPU是千亿级市场。
近年来,我国在DPU领域的政策支持也是频频发力。2021年工信部发布的《新型数据中心发展三年行动计划(2021-2023 年)》明确提出,“加快高性能、智能计算中心部署,推动CPU、GPU等异构算力提升”,这里的异构计算便主要指的是DPU。
无论从顶层设计,还是从市场需求来看,都让我们有十足的理由相信,DPU即将迎来历史最佳发展机遇期,DPU的春天要来了。