首页 > 最新资讯 > SC20 | 全球TOP500超级计算机不只是要变得更快、还要更智能
SC20 | 全球TOP500超级计算机不只是要变得更快、还要更智能

SC20 | 全球TOP500超级计算机不只是要变得更快、还要更智能

2020-11-17 17:53

#人工智能 #深度学习 #SC20


全球最快的超级计算机中有近70%使用NVIDIA技术,并且它们正在越来越多地使用AI帮助研究人员加快科学研究速度。

全球最快的超级计算机不但变得比以前更快,而且还变得更加智能,从而为更多的工作负载提供支持。

在SC20大会今天发布的全球最快超级计算机TOP500榜单中,近70%的机器(包括排在前10名中的8台)均采用了NVIDIA技术。

此外,最负盛名的超级计算机奖项——戈登·贝尔奖(Gordon Bell Prize)的四位候选人(于本周在SC20上被提名)均使用AI推动他们的科学研究。

他们的共同点在于:均使用NVIDIA的端到端HGX AI超级计算平台为科学计算、数据分析和AI工作负载提速。这是一个始于高性能芯片和超高速智能网络,而最终有关用于大型科学研究的全球数据中心级平台的故事。

将AI加入到HPC中,并扩展至传统超级计算中心之外的平台中是这一领域的重大变革。自Seymour Cray的CDC 6600于1964年发布以来,该领域一直专注于运用体积更大、性能更强的计算机进行计算密集型模拟与建模。

最新TOP500榜单超越了高性能Linpack的结果:

速度记录:如果以传统超级计算性能基准(即以被称为FP64的双精度浮点格式进行运算的速度)衡量,NVIDIA技术为全球最快的集群提速,令榜单排名前十中的八台机器如虎添翼,这其中包括了排名第五的NVIDIA      Selene超级计算机(全球性能最强大的商业系统)、排名第七的JUWELS(Forschungszentrum      Jülich)与排名第十的Dammam-7(Saudi Aramco)等新上榜的机器。

“智能”记录:如果以作为AI性能基准的混合精度标准——HPL-AI进行衡量,采用NVIDIA技术的机器在榜单上均排名靠前,比如美国橡树岭国家实验室(Oak      Ridge National Lab)的Summit超级计算机(0.55百亿亿次级)和NVIDIA Selene(0.25百亿亿次级)。

环保记录:NVIDIA DGX SuperPOD系统在Green500最高效超级计算机榜单上排名第一,以每瓦26.2 gigaflops创造了新的功效世界纪录。该榜单前30名计算机中有25台使用了NVIDIA技术。

AI超级计算开启飞速发展黄金时代

此次大会,最令人印象深刻的成就也许就是我们已经提前实现了超越百亿亿次计算的目标。

意大利CINECA超级计算中心在10月发布了建造全球最强大的AI超级计算机——Leonardo的计划,性能有望达到10 百亿亿次级。捷克、卢森堡和斯洛文尼亚也发布了多台全新EuropHPC AI系统。除了欧洲之外,亚洲和北美也将建造更多AI超级计算机。

这是因为现代AI运用NVIDIA GPU、NVIDIA CUDA-X库和NVIDIA Mellanox InfiniBand(全球唯一的全加速网络内计算平台)惊人的并行处理能力,将大量数据输入高级神经网络,从而创建出精密复杂的现实世界模型,使科学家们能够完成通过其他方式无法完成的宏伟项目。

相比往年戈登·贝尔奖候选者所模拟的最大系统,今年该奖的候选者之一 —— 劳伦斯·伯克利国家实验室(Lawrence Berkeley National Laboratory)计算研究部门的团队运用AI将分子动力学模拟的规模至少扩大了100倍。

一切都是为了推动科学发展

毫无疑问,系统速度的确重要,但更重要的是在现实世界中如何使用系统。

因此,你会看到新型AI超级计算机正在被推到对抗新冠疫情的最前线。

今年戈登·贝尔奖四位候选者中有三位专注于使用NVIDIA AI抗击COVID-19疫情。

其中一个团队在劳伦斯·利弗莫尔国家实验室(Lawrence Livermore National Laboratory)的Sierra超级计算机(TOP500榜单排名第三)上训练了一个AI,该AI能够在23分钟内从16亿种复方中筛选出新的候选药物。

另一个团队借助橡树岭国家实验室的Summit超级计算机(TOP500榜单排名第二)上的27612个NVIDIA GPU,每秒在两种关键的SARS-CoV-2蛋白结构上测试19028种候选药物成分。

还有一个团队使用Summit创建AI工作流来建立SARS-CoV-2刺突蛋白(主要的病毒感染机制)如何攻击人类ACE2受体的模型。

凭借可扩展的NVIDIA HGX AI超级计算平台(包括从处理器到网络和软件等所有部分)日益普及,科学家们可以在云计算公司的超大规模数据中心,以及超级计算机中运行他们的工作负载。

这个统一平台融合了HPC、数据分析和AI工作负载。目前该平台上有230万开发者并支持超过1800个加速应用、所有AI框架以及包括DASK和Spark在内的主流数据分析框架,使科学家和研究人员能够在内置GPU的x86、Arm和Power系统上立即提高生产力。

此外,NVIDIA NGC产品目录为最新版本的HPC和AI应用提供性能经过优化的容器,使科学家和研究人员可以快速完成部署,并把精力集中在推动科学发展上。

TOP500榜单专家观察

赖俊杰  NVIDIA中国区工程和解决方案高级总监

我们可以看到,很明显的趋势是:AI的应用在大型超算中心越来越常见。因为有应用需求的驱动,超算中心的设计者在芯片选型及系统架构设计阶段,需要越来越多地考虑对多种不同类型应用的支持。对于系统的绝对性能、能效比、通用性、可维护性,以及应用的移植开发难度,需要做全盘规划。NVIDIA 的GPU架构,适合HPC、AI,数据科学等等不同领域的大量应用。另外,NVIDIA经过与学术界和工业界的广泛合作和多年积累,形成了一批丰富易用的软件工具。那么NVIDIA GPU在TOP500榜单中出现的比例越来越高,也就不难理解了。

 

在榜单中,最新的基于安培架构的NVIDIA A100 GPU、NVIDIA Mellanox InfiniBand, 及DGX SuperPOD参考架构大放异彩。NVIDIA采用了DGX A100的Selene系统,获得了TOP500榜单上的第5名,HPL的性能达到了63.4 PetaFlops, HPL-AI的性能达到了0.25 ExaFlops;另外,SuperPOD的一个可扩展单元(Scalable Unit),也就是20台DGX A100组成的集群,获得了Green500榜单的第一名,性达能达到了26.2 GigaFlops/Watt。可以看到无论从绝对性能、系统扩展性,还是每瓦性能上,NVIDIA GPU结合Mellanox InfiniBand及SuperPOD参考架构,都有很大的优势。结合NVIDIA丰富的软件生态环境,相信越来越多的用户在搭建大型计算集群的过程中,会参考利用SuperPOD的架构实现。

相关新闻