用 NVIDIA Spectrum-3 交换机,展现卓越的云计算、AI 和存储性能
2021-10-13 19:28
网络矩阵是现代化数据中心性能的关键。这对数据中心的交换机提出了很多要求,而其中最基本的要求,是为所有客户提供等量的带宽,以便均匀地共享资源。如果没有公平的网络,所有应用都会因吞吐量恶化、延迟、分布式应用缓慢等原因,而出现性能不可预测的情况。
为了回答交换机是否重要这个问题,Tolly Group 对 NVIDIA Spectrum-3 12.8Tbps 交换机的云、AI 和存储应用性能进行了基准测试,并将结果与典型的(商品级)12.8Tbps 数据中心交换机的性能进行了同类比较。
Tolly Group
Tolly Group 是一家第三方独立 IT 行业实验室,30 多年来,一直从事对 IT 产品的性能测试和实际评估。Tolly Group 的定位是提供证据证明产品达到,或超越营销主张,并且不产生与 Tolly Group 公平测试宪章相冲突的报告。这一性能证明可以让客户知道自己是否可以放心地进行部署。
分布式应用的性能(AI 和 SPARK)
每个交换机都有一个缓冲区以防止丢包。每当送入交换机的流量超过可以送出交换机的流量时,缓冲区就会通过吸收数据包突发,来保护应用性能。这有时被称为 incast 流量模式。AI 和 Spark 等分布式应用因其性质而会受到 incast 流量模式的困扰。
两种交换机在其数据表中显示二者缓冲区大小相同。但 Tolly Group 发现,NVIDIA Spectrum-3 能够吸收的数据包是典型数据中心交换机的 4 - 8 倍,因此需要 8 台商品级交换机才能提供相当于 Spectrum-3 交换机的数据包吸收能力。
图1 NVIDIA Spectrum-3 和商品级交换机对比
最大吸收能力固然重要,但光考虑这一点还不够。交换机必须均匀吸收来自所有发送方的微突发流量,一个节点的延缓就会使整个集群变慢。
Tolly Group 发现,Spectrum-3 在所有情况下都能均匀吸收来自所有发送方的微突发流量,而商品级交换机则会使多个节点变慢,导致计算资源未得到充分利用。
公有云和私有云性能
公有云和私有云环境中会出现“吵闹的邻居”问题,即当多个租户使用一个共享资源,如 CPU 周期或网络带宽时,出现了一个租户占用了这些资源,这个租户被称为“吵闹的邻居”。
“吵闹的邻居”问题可能因交换机租户之间的隔离能力不足,使得一个租户的使用而降低另一个租户的体验。数据中心交换机必须保护租户不受其他租户活动的影响,既要防止恶意攻击,也要防止“吵闹的邻居”的影响。
Tolly Group 发现,Spectrum-3 交换机完全保护了每个租户。而其他的交换机却未能保护租户,因为“吵闹的邻居”的流量模式,使一些租户的成为受害者,严重匮乏带宽。
在扩展多租户环境时,Spectrum-3 同样保护了每个租户。但在这种情况下,“吵闹的邻居”问题规模远大于商品级交换机,扩展到交换机端口总数的一半。换言之,多达 70 个端口可能成为受害者并出现带宽匮乏。
如果一个交换机不能保护租户免受“吵闹的邻居”的影响,该交换机就不符合云架构交换机的基本要求。
图2 “吵闹的邻居”隔离
换句话说:使用 Spectrum-3,“吵闹的邻居”流量模式就不会产生影响。而如果使用商品级交换机,受害租户就会出现带宽匮乏。
存储性能
如今,数据中心的大多数存储流量都在以太网上运行。具体而言,存储通常使用 9KB 的巨帧。因此,这种数据包的大小变得比以往任何时候都重要,现在大多数交换机都支持 9KB 默认数据包大小。
但典型数据中心交换机仅仅支持 9KB 数据包,这并不意味着它们为存储应用进行了优化。为了测量和比较每个交换机的存储性能水平,Tolly Group 使用 IXIA 的标准网络测试工具来测量 9KB 数据包。
Tolly Group 发现,Spectrum-3 在所有情况下都能为所有存储节点提供可预测和公平的性能。商品级交换机在使用 9KB 数据包时,显示出不公平的流量共享,迫使一个存储节点的运行速度比其他存储节点慢 17 倍。这些不可预测的结果严重影响了存储性能。
这会对现实世界产生影响。比如本来计划并预计运行一个存储备份的时间为 2 小时,但最终用了 34 小时才完成。
混合应用性能
大多数数据中心运行多种不同的应用,每个应用数据包大小不尽相同。即使是单个应用也会使用各种不同大小的数据包。再加上控制流量模式,最终,网络上可能会出现更多不同大小的数据包。
Tolly Group 发现,无论数据包大小如何,Spectrum-3 始终能够实现公平性。而商品级交换机上,使用较小数据包的应用总会陷入带宽匮乏。更糟糕的是,随着数据包大小差距的增加,小数据包的情况变得越发糟糕。
图3 因帧的大小而产生的悬殊性能
在商品级交换机中,混合数据包大小所带来的带宽匮乏会对云、存储和分布式应用产生不利的影响。
为何会如此?
一言以蔽之,因为架构。
Spectrum 交换机有一个现代的、完全共享的缓冲区架构,以及灵活的流水线架构,该架构专为优化数据中心应用性能和安全而设计。进一步了解评估结果,请下载新的 Tolly Group 性能评估报告。该报告解释了 Spectrum 交换机和商品级交换机的架构及其优势与劣势。
架构是一个真正的零和游戏。但与其他许多厂商不同,NVIDIA 同时开发了 ASIC 和交换机,使用户可以兼得“鱼与熊掌”,并且其出色的结果也得到了 Tolly Group 验证的。