全球最快超级计算机性能提升3倍

2019-07-18 10:23

美国橡树岭国家实验室展示了Summit的混合精度功能，在全新AI超算时代，该功能可谓至关重要。

HPL-AI是一种新的AI超级计算机基准测试方法。基于该基准测试方法，美国橡树岭国家实验室的Summit系统的性能水平达到了前所未见的445 petaflop （接近百万兆级的一半）。远高于该系统在全球最快的超计算机TOP500榜单中公布的官方表现——148 petaflop，性能提升3倍。

高性能Linpack基准测试（HPL）长期以来一直是超级计算机性能的衡量标准，也是两年前TOP500榜单的参考基础。

大约30年前，高性能计算领域的杰出代表Jack Dongarra推出了该基准，几十年来，Linpack基准测试经受住了时间的考验，为超级计算提供了通用的性能测试体系。该基准测试采用双精度数学计算，通过让超级计算机运行HPC应用程序（如模拟），来评测其性能。

尽管一直以来HPL都是衡量HPC应用的TOP500系统性能的可靠基准，但是现代超级计算机不仅仅只被用于模拟，还被用于AI应用。而且，如今大多数的AI模型都采用了混合精度数学计算——这是一种完全不同给技术，可以使研究人员能够提高计算效率，并挖掘出现代超计算机中尚未被开发出的性能潜力。

为了更好地展现出代表了超级计算新时代的人工智能技术，推出了基于HPL标准的基准测试方法——HPL-AI，该方法结合了现已被广泛应用于AI模型训练当中的混合精度计算。

在Summit超级计算机上运行HPL-AI测试，证实了大规模HPL-AI基准测试的可行性，可以衡量混合精度计算性能并对现有的HPL基准测试进行完善。

Dongarra表示：“无论针对使用迭代细化技术的传统模拟，还是针对于新的AI应用程序，混合精度技术对超级计算机的计算效率的提升作用已经变得越来越重。正如HPL允许对双精度功能进行基准测试一样，这种基于HPL的新基准测试方法可以对大规模超级计算机的混合精度功能进行基准测试。”

HPL-AI背后相应的方法论已由Azzam Haidar、Dongarra和其团队在SC 2018上发表的论文中进行了概述。

Summit达到性能新巅峰

在一次试运行中，在Summit超级计算机上运行HPL-AI计算，在短短的26分钟内运行了超过1000万个方程式；如采用原始HPL运行相同规模的方程式，则需要77分钟；速度较之提高了3倍。

“我们的200 petaflops Summit系统包括了由NVIDIA Volta GPU驱动的混合精度Tensor核心。自从该系统交付安装完成之后，我们不仅希望只借助该系统运行AI，我们还希望在传统HPC工作负载中使用该系统，”美国橡树岭国家实验室副主任Jeff Nichols说到，“能在HPL基准测试中获得445 petaflops混合精度测试结果（相当于148.6 petaflops的DP测试结果），说明该系统能够在传统和AI工作负载中提供高达3倍的性能表现。这是我们能够在而科学研究方面获得前所未有的巨大竞争优势。”

Summit装载了超过27,000个NVIDIA V100 GPU，每个GPU都拥有数百个支持混合精度计算的Tensor核心。在2018年戈登贝尔奖中，在决赛的6名选手当中，有5名都采用了GPU加速的Summit系统为其项目提供算力，其中包含了模拟和AI任务。

科研人员目光锁定混合精度超算

化学、核能、石油、天然气，各个研究领域的科学家们都在采用由NVIDIA GPU赋能的计算资源来开展需要AI和模拟来实现突破的研究工作。

核聚变反应研究：核聚变相当于在一个瓶子里放置了一颗太阳。虽然他能提供近乎无限的清洁能源，但核聚变反应涉及高达1,000万摄氏度的工作。而且其很容易受到干扰，难以维持超过几秒钟。美国橡树岭国家实验室的研究人员们正在模拟核聚变反应，以便物理学家们可以深入研究原子核如何的不稳定性，从而使他们可以更好地了解反应内部所发生的情况。Tensor核心GPU的混合精度功能能够将这些模拟的运行速度提高3.5倍，从而推动ITER等领先机构在可持续能源领域的发展。

探寻新分子结构：无论使开发用于工业用途的新化合物，还是发明用于治疗疾病的新药，科学家们都需要合成和鉴定具有理想化学性质的新分子。借助于NVIDIA V100 GPU进行训练和推理，陶氏化学公司（Dow Chemical Company）的研究人员们开发了一套神经网络来识别用于化学制造和制药行业的新分子。

地震断层分析：石油和天然气行业会通过分析地震图像来检测断层线，这是表征储层和确定钻井位置的重要步骤。该过程通常需要数天甚至数周的时间才能完成一次迭代。但是，来自德克萨斯大学的研究人员们使用NVIDIA GPU训练了一个AI模型，能在在短短的几毫秒内预测故障。

基准测试生态新成员

这不是第一次推荐采用新的超级计算基准测试方法。在2007年就曾推出了Green500榜单，在此之前，整个行业都没有一个统一的能效衡量标准

多种不同的基准测试方法能够为测试超级计算机性能提供不同的视角，有助于更加全面地了解超级计算机的性能。

当前的基准测试方法缺少针对大规模超计算系统的混合精度功能进行测试的方法。而HPL-AI恰好可以满足这一需求，展示超级计算系统如何处理混合精度工作负载（如大规模AI）。

分享到微信分享到微博

精彩推荐

GTC22 秋季10大精彩内容