首页 > 最新资讯 > COMPUTEX2023 | NVIDIA 推出 DGX GH200 AI 超级计算机
COMPUTEX2023 | NVIDIA 推出 DGX GH200 AI 超级计算机

COMPUTEX2023 | NVIDIA 推出 DGX GH200 AI 超级计算机

2023-06-07 20:19

#人工智能 #深度学习


新型 AI 超级计算机将 256 个 Grace Hopper 超级芯片连接为巨大的、1-Exaflop、144TB GPU,用于支持生成式 AI、推荐系统和数据处理的巨型模型

 

 

COMPUTEX—2023 年 5 月 29 日—NVIDIA 今天宣布推出一款新型大内存 AI 超级计算机——由 NVIDIA® GH200 Grace Hopper 超级芯片和 NVIDIA NVLink® Switch System 驱动的 NVIDIA DGX™ 超级计算机,旨在助力开发面向生成式 AI 语言应用、推荐系统和数据分析工作负载的巨型、下一代模型。

NVIDIA DGX GH200 的超大共享内存空间通过 NVLink 互连技术以及 NVLink Switch System 使 256 个 GH200 超级芯片相连,使它们能够作为单个 GPU 运行。其提供 1 exaflop 的性能和 144 TB 的共享内存——相较 2020 年推出的上一代 NVIDIA DGX A100 内存大了近 500 倍。

NVIDIA 创始人兼首席执行官黄仁勋表示:“生成式 AI、大型语言模型和推荐系统是现代经济的数字引擎。DGX GH200 AI 超级计算机集成了 NVIDIA 最先进的加速计算和网络技术来拓展 AI 的前沿。”

NVIDIA NVLink 技术大规模扩展 AI

 

GH200 超级芯片使用 NVIDIA NVLink-C2C 芯片互连,将基于 Arm 的 NVIDIA Grace™ CPU 与 NVIDIA H100 Tensor Core GPU 整合在一起,从而不再需要传统的 CPU 至 GPU PCIe 连接。与最新的 PCIe 技术相比,这将 GPU 和 CPU 之间的带宽提高了 7 倍,将互连功耗减少了 5 倍以上,并为 DGX GH200 超级计算机提供了一个 600GB 的 Hopper 架构 GPU 构建模块。

DGX GH200 是第一款将 Grace Hopper 超级芯片与 NVIDIA NVLink Switch System 配对使用的超级计算机,这种新的互连方式使 DGX GH200 系统中的所有 GPU 作为一个整体协同运行。上一代系统在不影响性能的前提下只能通过 NVLink 把 8 个 GPU 整合成一个 GPU。

DGX GH200 架构相比上一代将 NVLink 带宽提升了 48 倍以上,实现在单个 GPU 上通过简单编程即可提供大型 AI 超级计算机的能力。

面向 AI 先锋的新研究工具

 

谷歌云、Meta 和微软是首批有望接入 DGX GH200 来探索其用于生成式 AI 工作负载的能力的公司。NVIDIA 还打算将 DGX GH200 设计作为蓝图提供给云服务提供商和其他超大规模企业,以便他们能够进一步根据他们自己的基础设施进行定制。

谷歌云计算副总裁 Mark Lohmeyer 表示:“构建先进的生成式模型需要创新的 AI 基础设施。Grace Hopper 超级芯片的全新 NVLink 和共享内存解决了大规模 AI 的关键瓶颈,我们期待它在谷歌云以及我们的生成式 AI 计划中发挥强大的能力。”

Meta 基础设施、AI 系统及加速平台副总裁 Alexis Björlin 表示:“随着 AI 模型规模越来越大,它们需要可扩展的强大基础设施,以满足不断增长的需求。NVIDIA 的 Grace Hopper 设计看起来能够让研究人员探索新的方法来解决他们面临的最巨大挑战。”

微软 Azure 基础设施企业副总裁 Girish Bablani 表示, “在以往训练大型 AI 模型是一项资源和时间密集型任务。DGX GH200 所具备的处理 TB 级数据集的潜力使得开发人员能够在更大的规模和更快的速度下进行高级别的研究。”

全新 NVIDIA Helios 超级计算机将推进研发

NVIDIA 正在打造自己的基于 DGX GH200 的 AI 超级计算机,以支持研发团队的工作。

这台名为 NVIDIA Helios 的超级计算机将配备四个 DGX GH200 系统。每个都将通过 NVIDIA Quantum-2 InfiniBand 网络互连,以提高训练大型 AI 模型的数据吞吐量。Helios 将包含 1024 个 Grace Hopper 超级芯片,预计将于今年年底上线。

完全集成,专为巨型模型而构建

 

DGX GH200 超级计算机包含 NVIDIA 软件,可为最大的 AI 和数据分析工作负载提供一个交钥匙式全栈解决方案。NVIDIA Base Command™ 软件提供 AI 工作流程管理、企业级集群管理和多个加速计算、存储和网络基础设施的库,以及为运行 AI 工作负载而优化的系统软件。

此外还包含 NVIDIA AI Enterprise,即 NVIDIA AI 平台的软件层。它提供 100 多个框架、预训练模型和开发工具,以简化生成式 AI、计算机视觉语音 AI 等生产 AI 的开发和部署。

供货情况

 

NVIDIA DGX GH200 超级计算机预计将于今年年底上市。

 

相关新闻