首页 > 最新资讯 > 算力时代,网络决定性能
算力时代,网络决定性能

算力时代,网络决定性能

2022-06-15 20:27

#人工智能 #深度学习


 

在最新发布的全球最强超级计算机排名 Top500 的榜单中,InfiniBand 网络再次以绝对的数量和性能优势蝉联超级计算机互连设备数量榜首,比上次排行榜的数量又有了大幅度的增长。纵观这次的榜单,可以归纳出以下三个趋势:

基于 InfiniBand 网络的超级计算机以 197 台的数量大幅领先于其它网络技术。特别在 Top100 的系统中,基于 InfiniBand 网络的超级计算机更是遥遥领先,InfiniBand 网络已经成为了追求性能的超级计算机的标配。

NVIDIA 网络产品成为 Top500 系统中的主流互连设备,其中超过三分之二的超级计算机在使用 NVIDIA 网络互连,NVIDIA 网络的性能和技术领先性已经得到了广泛认可。

还值得一提的是,InfiniBand 网络不仅在传统的 HPC 业务,在企业级数据中心和公有云上也已被广泛使用。目前性能第一的企业级超级计算机 NVIDIA Selene 和微软公司的 Azure 公有云都在利用 InfiniBand 网络来发挥其超高的业务性能。

网络计算技术成就性能优势

为什么 InfiniBand 网络在 Top500 中受到了如此的重视? 

其性能优势起到了决定性的作用。

InfiniBand 网络率先实现了通信和计算在网络中的融合,是业界第一款会计算的网络,其先进的网络计算技术,不仅大幅提升了计算性能,还通过计算的手段解决了困扰通信领域数十年的问题,如 Reduce 、Allreduce 、Barrier 等通信操作带来的网络拥塞问题。

这些操作会在网络中产生瞬间的网络流量突发,对于无损网络来说,会通过拥塞控制技术来强迫网络降速以缓解拥塞问题;对于有损网络来说,就会造成网络中的大量丢包,从而导致网络重传数据,这两种情形都会造成业务的性能下降。

由于这些通信操作是很多业务中频繁使用的通信方式,在过去几十年的时间里,众多的科研人员都在致力于优化拥塞控制的算法和优化通信法则来解决这个问题,但是一直没能有突破性的进展。

InfiniBand 网络的 SHARP 网络计算技术(In-Network Computing)的出现,为业界提供了新的思路,利用计算的手段从根本上可以解决这些通信模型造成的拥塞问题,让您的网络不必再降速或者丢包,在全线速的状态下完成数据的传输。

这项技术已经被广泛用到 Top500 的众多的机器当中。

性能隔离技术解决企业级数据中心

和云市场难题

为什么 InfiniBand 网络进入了企业级数据中心和云的市场? 

InfiniBand 网络带来的性能隔离技术为其叩开了这些市场的大门。

对于业务来进行性能隔离也是困扰网络界和计算界很久的问题,现在我们已经实现了租户之间的安全隔离,租户业务和业务之间的隔离,但是当很多的租户在同时运行多个应用的时候,却无法实现应用之间的性能隔离。

即使我们通过一些先进的 QoS 技术来将计算资源和通信资源隔离开来,但却无法实现业务运行在 Bare Metal 系统上的性能。 

InfiniBand 网络极先进的性能隔离技术,除了实现业务的隔离之外,更是保障了业务在云上多租户、多任务的状态下,实现和在 Bare Metal 环境下一样的性能。

这项技术已经在微软的 Azure 公有云上开始向用户提供服务。

在当前的算力成为服务,数据中心成为计算单元的新型计算平台下,网络成为决定算力性能的关键因素。

单机的性能已无法满足算力的需求,数据中心的性能以及多数据中心的综合性能才是算力保障的基础。

作为连接数据中心内的计算单元、存储单元以及各个数据中心之间的网络,成为算力保障的核心。

InfiniBand 网络凭借其极致的性能,不断创新的技术架构,在更低功耗、更少硬件设备的前提下帮助用户实现了业务性能的最大化,其进入越来越多的使用场景自是大势所趋。

相关新闻