搭上A100：全球HPC中心驶入NVIDIA AI超级计算快车道

首页 > 最新资讯 > 搭上A100：全球HPC中心驶入NVIDIA AI超级计算快车道

2020-11-26 18:10

#人工智能 #深度学习分享到微信分享到微博

NVIDIA Ampere架构和Mellanox InfiniBand网络推动全球AI 超级计算的发展。

全球各地的超级计算中心都在采用NVIDIA Ampere GPU架构，以满足从药物研发到能源研究等各个领域对更强大的AI模型日益增长的需求。

富士通宣布加入这一行列，为日本产业技术综合研究所（AIST）的AI Bridging Cloud Infrastructure（ABCI）提供全新的百亿亿次系统，性能可达600 petaflops。

过去五年，随着AI在研究中的广泛使用，模型的复杂性已飙升三万倍。在科学应用中，这些庞大的数据集可保存在内存中，有助于最大程度地减少批处理，并实现更高的吞吐量。

为推动新一波的研究，NVIDIA推出了采用HBM2e技术的NVIDIA A100 80GB GPU。它将A100 40GB GPU的高带宽内存增加一倍，达到了80GB，提供每秒超过2 TB的内存带宽。

采用全新NVIDIA A100 80GB GPU，使更大规模的模型和数据集可在内存中，以更快的内存带宽运行，从而为工作负载实现更大的计算量，并更快速地取得结果。通过减少节点间的通信，仅使用一半的GPU，就能将AI训练性能提高1.4倍。

NVIDIA还推出了全新NVIDIA Mellanox 400G InfiniBand架构，使数据吞吐量增加一倍，并提供全新网络计算引擎，实现了额外的加速。

欧洲紧跟超级计算浪潮

欧洲正在崛起。意大利校际联盟CINECA发布了全球最快的AI超级计算机Leonardo系统。它基于14,000个NVIDIA Ampere架构GPU和NVIDIA Mellanox InfiniBand网络构建，AI性能可达10 exaflops，由法国Atos公司进行构建。

除Leonardo外，还有越来越多的欧洲系统采用了得到EuroHPC计划支持的NVIDIA AI平台。德国Jülich超级计算中心最近推出了在欧洲上线的首个基于NVIDIA GPU的百亿亿次AI系统，成为欧洲最强大的AI平台。这一新系统由Atos设计，被命名为JUWELS，是一台性能达到2.5 exaflops的AI超级计算机，在最新TOP500榜单上排名第七。

此外，还包括卢森堡的MeluXina超级计算机、IT4Innovations国家超级计算中心、捷克共和国最强大的超级计算机、斯洛文尼亚马里博尔信息科学研究所的Vega超级计算机。

Linköping University正计划基于NVIDIA DGX SuperPOD基础设施，打造瑞典最快的AI超级计算机——BerzeLiUs。预计它将为前沿研究提供300 petaflops的AI性能。

NVIDIA正在开发Cambridge-1，这是一款80节点的DGX SuperPOD，具备400 petaflops 的AI性能。Cambridge-1将成为英国最快的AI超级计算机，被用于英国学术界、业界和初创企业在AI和医疗健康领域的合作研究。

北美势头喜人

北美也在追赶百亿亿次AI超级计算的浪潮。美国国家能源研究科学计算中心（NERSC）正在采用NVIDIA AI技术在Perlmutter上开展项目，其系统搭载6,200个A100 GPU。目前，NERSC称其AI性能为3.9 exaflops。

NVIDIA Selene是基于DGX SuperPOD构建的集群，为大规模GPU集群提供了公共参考架构，该架构可在数周内完成部署。NVIDIA DGX SuperPOD系统在Green500最高效的超级计算机榜单中排名第一，以每瓦26.2 gigaflops创造了新的功效世界纪录，并且为MLPerf inference开创了八个新的性能里程碑。

佛罗里达大学和NVIDIA正在构建全球学术界最快的AI超级计算机，旨在提供700 petaflops的AI性能。此次合作使佛罗里达大学步入了美国领先的AI大学行列，推进了学术研究，并可协助应对佛罗里达州最复杂的挑战。

在阿贡国家实验室，研究人员将使用24个NVIDIA DGX A100系统构建的集群，扫描数十亿种药物，以寻找COVID-19的治疗方法。

洛斯阿拉莫斯国家实验室、慧与和NVIDIA开展合作，致力于提供下一代技术，以加速科学计算。

亚太众多机构齐上阵

NVIDIA Ampere架构还将为亚太地区的超级计算机提供大力支持。韩国搜索引擎NAVER与日本即时通讯服务公司LINE采用由140个DGX A100系统构建的DGX SuperPOD，具备700 petaflops的AI峰值性能，能够游刃有余地扩展自然语言处理模型和对话式AI服务的研发。

日本海洋研究开发机构（JAMSTEC）正在使用NVIDIA A100 GPU和NVIDIA InfiniBand升级其地球模拟器（Earth Simulator）。预计该超级计算机的AI峰值性能将达到624 petaflops，HPC最大理论性能达到19.5 petaflops，将在当今TOP500超级计算机中名列前茅。

印度高级计算发展中心（C-DAC）正在调试该国最快、最大的AI超级计算机——PARAM Siddhi – AI。该超级计算机由42个DGX A100系统组成，具备200 exaflops的AI性能，帮助应对医疗健康、教育、能源、网络安全、航天、汽车和农业领域的挑战。

全球科学研究从未像如今一般飞速发展，前景可期！

分享到微信分享到微博

精彩推荐

GTC22 秋季10大精彩内容