首页 > 最新资讯 > SC21 | MLPerf 基准测试阐明为什么 AI 是 HPC 的未来
SC21 | MLPerf 基准测试阐明为什么 AI 是 HPC 的未来

SC21 | MLPerf 基准测试阐明为什么 AI 是 HPC 的未来

2021-11-19 15:09

#人工智能 #深度学习 #GTC21


在五项新的行业指标中,NVIDIA 赢得了其中的四项。这些指标聚焦于AI在高性能计算中的应用,是一种推动科学和行业进步的方法。
 
 
 
MLPerf HPC 1.0 是用于衡量高性能计算中 AI 性能的行业基准测试,而 NVIDIA 赋能的系统在该基准的五项测试中胜出四项。
 
MLPerf 是用于深度学习的行业基准测试,首次发布于 2018 年 5 月。上述战绩是 MLPerf 基准测试的最新结果。MLPerf HPC 解决了一种计算方式,可借助 AI 加速并增强超级计算机上的模拟。
 
分子动力学、天文学和气候模拟的近期进展都使用 HPC+AI 取得了科学突破。这种趋势可以推动科学和工业领域用户采用E级(Exascale) AI。
 

基准测试衡量内容

 
MLPerf HPC 1.0 在 HPC 中心的三个典型工作负载中测试 AI 模型训练。
 
Cosmoflow 判断望远镜图像中物体的细节。
Deepcam 测试对气候数据中飓风和大气河流的检测。
Opencatalyst 跟踪系统预测分子中原子间力的成效。
 
每个测试分为两个部分。衡量系统训练模型的速度的指标被称为强标度。其对应的弱标度是衡量系统最大吞吐量的指标,即系统在给定时间内可以训练多少模型。
 
与去年 MLPerf 0.7 那一轮的强标度最佳成绩相比,NVIDIA 为 Cosmoflow 性能提升了多达 5 倍。在 deepcam 方面,则将性能提高了近 7 倍以上。
 
劳伦斯伯克利国家实验室 (Lawrence Berkeley National Laboratory) 的 Perlmutter 系统使用了 5,120 个 NVIDIA A100 Tensor Core GPU 中的 2,048 个,在 opencatalyst基准中成绩斐然。
 
 
在弱标度类别中,NVIDIA使用每个作业 16 个节点和 256 个同时作业来主导 deepcam。NVIDIA所有的测试都在 NVIDIA Selene(如上图),即NVIDIA内部系统和大型工业超级计算机上运行。
 
图注:NVIDIA 在模型训练速度和每芯片效率方面均取得领先。
 
最新结果显示 NVIDIA AI 平台及其性能领先性的另一个维度。这是 NVIDIA 第八次在 MLPerf 基准中获得最高分,该基准涵盖数据中心、云和网络边缘的 AI 训练和推理。
 

庞大的生态系统

 
本轮八名参与者中有七名使用 NVIDIA GPU 提交了结果。
 
其中包括德国于利希超级计算中心、瑞士国家超算中心,以及美国的阿贡国家实验室、劳伦斯伯克利国家实验室、国家超级计算机应用中心和德克萨斯高级计算中心。
 
于利希超算中心(Jülich Supercomputing Centre)主任 Thomas Lippert 表示:“通过基准测试,我们已经证明我们的机器能够在实践中发挥其潜力,并有助于让欧洲在 AI 方面保持领先。”
 
MLPerf 基准由 MLCommons 提供支持。后者是由阿里巴巴、Google、英特尔、Meta、NVIDIA 等牵头的行业组织。
 

我们的实现方式

 
如此强劲的表现都得益于 NVIDIA AI 平台的成熟发展。该平台目前已包括完整的软件堆栈。
 
在这一轮中,NVIDIA使用每个人都可以使用的工具来调整代码,例如可以加速数据处理的 NVIDIA DALI 和能够减少小批量延迟的 CUDA Graphs,追踪将横向扩展到 1,024 个或更多个 GPU。此外还应用了 NVIDIA SHARP,这是 NVIDIA MagnumIO 中的一个关键组件,可提供网络计算以加速通信并将数据操作卸载到 NVIDIA Quantum InfiniBand 交换机网络
 
NVIDIA用于提交作品的所有软件均可从 MLPerf 仓库获得。NVIDIA定期将此类代码添加到 NGC 目录。该目录是NVIDIA预训练 AI 模型、行业应用程序框架、GPU 应用程序和其他软件资源的软件中心。

相关新闻