首页 > 最新资讯 > Red Hat 与 NVIDIA 正在构建一个集成的云就绪基础设施解决方案
Red Hat 与 NVIDIA 正在构建一个集成的云就绪基础设施解决方案

Red Hat 与 NVIDIA 正在构建一个集成的云就绪基础设施解决方案

2022-05-13 19:24

#人工智能 #深度学习


IT 世界正在向云计算迁移,而云计算是构建在 Kubernetes 管理的容器上的。我们认为,下一个逻辑步骤就是使用数据处理器(DPU)来加速这一基础设施,以提高性能、效率和安全性。

Red Hat 与 NVIDIA 正在构建一个集成的云就绪基础设施解决方案, 该解决方案基于Red Hat OpenShift 的管理和自动化,并结合了 NVIDIA BlueField DPU 的加速、工作负载隔离和安全功能。

Red Hat OpenShift 的优势

 

许多流行的云计算基础设施项目使用 Kubernetes 管理的容器。然而,实施 Kubernetes 可能是一项艰巨的任务,尤其是对于那些无法投入专职人员成为 Kubernetes 专家的组织来说。

除了应用程序部署、更新和生命周期管理以外,Red Hat OpenShift 提供了一套强大的功能来管理 Kubernetes 容器。OpenShift 包括自动化和安全工具,以及一个云计算基础设施更经济、更可靠和更具扩展性的受支持开源模型。

根据 2021 年一项 Red Hat 调查, 超过 85% 的容器编排项目使用了 Kubernetes ,而 Red Hat OpenShift 是混合和多云 Kubernetes 部署的最受欢迎选择。OpenShift 是业界领先的企业级 Kubernetes 平台,被财富 500 强中超过 50% 的商业银行、电信公司和航空公司所使用。

显然,大多数企业都想要一个受支持的 Kubernetes 模型, Red Hat OpenShift 是最受欢迎的选择之一。

DPU 的工作原理

 

DPU 从服务器 CPU 卸载、加速和隔离基础设施工作负载。例如,BlueField DPU 可以从 CPU 卸载网络、网络虚拟化、数据加密和时间同步任务,并在专用芯片上运行它们。

其他基础设施软件,如远程管理、防火墙代理、网络控制平面和存储虚拟化,均可以在 BlueField 的 Arm 处理器内核上运行。这样做可以释放服务器的 CPU 内核,而这些内核可以运行应用程序和租户工作负载。

该功能还将基础设施和安全工作负载隔离在单独的域中。一组服务器能以更快的网络运行更多的应用程序,并提高了数据中心的效率和安全性。

在一个典型的云计算基础设施中,网络流量会在物理服务器间和在这些服务器上运行的容器间来回移动。这需要在每台服务器中都有一个数据包交换解决方案,为了获得最大的效率,应用程序容器也需要一种与 DPU 的加速网络卸载进行通信的方式。

传统的方法是通过 Kubernetes 和开放虚拟网络(OVN)来访问开放虚拟交换机(Open vSwitch 或 OVS)。OVN 提供网络抽象,默认部署策略是在主机服务器 CPU 上同时运行 OVN 和 OVS 。

然而,随着网络速度超过 10 Gbps ,这种方法会消耗大量 CPU 内核。Kubernetes 需要一个解决方案来在 DPU 上运行 OVN 和 OVS 功能,以便所有的数据包交换、报头重写、封装/解封装和数据包过滤都可以在网络硬件上完成,而不是在 CPU 上的软件中完成。

强化 Red Hat 和 NVIDIA 之间的网络集成

 

Red Hat 和 NVIDIA 合作将 OpenShift 的管理能力与 DPU 的加速能力相结合。

集成的第一阶段开始于 2018 年,Red Hat Enterprise Linux 将网络流量卸载到 NVIDIA ConnectX SmartNIC 。使用 OVS 或 DPDK 的网络数据平面在 SmartNIC ASIC 上运行,但网络控制平面仍完全在 X86 CPU 上的软件中运行。

图 1 . 运行在 Red Hat Enterprise Linux 上的 OpenStack SDN 控制器通过 OVS 将网络数据平面卸载到 NVIDIA ConnectX SmartNIC ,而控制平面在 X86 CPU 上运行。

 

2021 年,两家公司采取了下一步行动,将 Red Hat OpenShift 与 NVIDIA BlueField DPU 一起部署,并进行了性能基准测试。在 NVIDIA GTC 2021 上,我们展示了将网络转移到 DPU 的优势,并发表了一篇名为 “通过将网络功能卸载到 NVIDIA BlueField-2 DPU ,优化数据中心的服务器利用率” 的文章。

在此解决方案中,具有覆盖卸载(OVS 和 Geneve 卸载)的网络数据平面和网络控制平面(在 OVN Kubernetes Pod中)在具有 Red Hat Enterprise Linux 的 DPU 上运行。OpenShift 的主要组件,包括 Red Hat Enterprise Linux CoreOS ,仍保留在 x86 CPU 上。

图 2 . 运行在 Red Hat Enterprise Linux CoreOS 上的 Red Hat OpenShift 通过 OVN 和 OVS 将网络数据平面和控制平面卸载到 BlueField-2 DPU 。DPU 在其 Arm 内核上运行 Red Hat Enterprise Linux 。

 

在图 2 中的部署场景中,BlueField-2 在以下方面起着重要作用:

Geneve (虚拟覆盖网络)封装/解封装

IPsec 封装/解封装

加密/解密路由

网络地址转换(NAT)

主机 CPU 和容器只看到简单的未封装、未加密的数据包, CPU 不需要执行任何任务,因为它们已被卸载到 DPU 。这种卸载水平将 CPU 利用率降低了 70% ,释放了每台服务器上的大量 CPU 资源,以运行额外的业务/租户工作负载。

在 DPU 上运行 OpenShift

 

如 GTC 2022 上所述 , Red Hat 与 NVIDIA 已经采取了下一步行动,将包括 Red Hat Enterprise Linux CoreOS 在内的 OpenShift 迁移到 BlueField DPU 的 Arm 内核上运行,以实现 Red Hat OpenShift 双集群设计, 其中包括单独的租户和基础设施集群。

Red Hat Enterprise Linux CoreOS 是受支持的操作系统,用于 OpenShift 控制平面,或 Master 和 Worker 节点。这是 OpenShift 的一部分来执行调度、维护、升级和群集自动化。它包括容器管理工具和安全强化,使其更能抵御黑客攻击,现在它可以在主机 x86 CPU 和 DPU Arm 内核上运行。

BlueField DPU 在各种主机服务器上运行 OpenShift OVS 和 OVN 容器以及 Red Hat Enterprise Linux CoreOS ,形成了一个基础设施 Worker 集群。同时,在 x86 CPU 上运行的 OpenShift 管理租户 Pod 和集群。

将 OpenShift 基础设施群集软件卸载到 BlueField Arm 内核上而不是主机 x86 内核上运行,可以提供额外的 x86 CPU 节省、更高的性能和更强的安全隔离。

 

图 3 . 从 Red Hat OpenShift 4.10 开始,您可以在 x86 CPU 上运行 OpenShift 来管理租户,也可以在 BlueField DPU Arm 内核上运行 OpenShift 来管理集群基础设施。

云原生的软件定义网络是 BlueField DPU 用例的一个很好的例子,在 OpenShift 环境中,OVN 和 OVS 在 BlueField DPU 上运行并由其卸载。许多其他基础设施服务,如网络加密、防火墙代理、虚拟路由器、遥测代理等,也可以在 DPU 上运行,以获得更大的收益。

从 OpenShift 卸载到 DPU 带来的显著成本节约收益

 

为了了解 DPU 卸载对降低数据中心成本的影响, NVIDIA 与 Red Hat 为一个配备 51K 服务器的中型数据中心制定了一个 TCO 模型。我们认为该数据中心支持 100 万个应用程序,每个应用程序需要每秒 10 万个数据包(PPS)的交换性能。

我们考虑了两种服务器部署方案 —— 有和没有 DPU :

没有 DPU 的服务器完全在软件中运行虚拟交换,仅实现 35 万 PPS 。

有 DPU 的服务器将 OVN 和 OVS 卸载到 DPU, 其性能提高了 54 倍,达到每台服务器 1870 万 PPS 。

将虚拟交换机卸载到 DPU 上还为每台服务器节省了八个 CPU 内核。基于此测试, TCO 模型惊人的节省了 6850 万美元资本支出。由于更高的网络性能和每台服务器 CPU 内核的节省,这些节省被认为可以减少部署 10K DPU 增强服务器。

我们看到,由于更小的服务器空间占用而节省了电力,这最终导致基于 DPU 的服务器具有更好的 TCO 模型。随着我们将负载平衡器、防火墙、加密、Web 服务器等附加功能卸载到 DPU ,这些 TCO 节省将变得更好,最终为云就绪数据中心实现惊人的效率。

 

解决方案路线图和在 BlueField 上部署 OpenShift

 

在 BlueField 上运行 OpenShift 的双集群 OpenShift 架构现已作为 OpenShift 4.10 的开发者预览版或早期试用版提供,预计将于 2022 年全面推出。

但 NVIDIA 与 Red Hat 团队并没有就此止步。我们计划测试网络流量加密/解密的卸载,因为这是一项 CPU 密集型任务。

BlueField-2 DPU 可以卸载高达 100 Gbps 的 IPsec 加密/解密和高达 200 Gbps 的 TLS 加密/解密。

BlueField-3 有望以更高的速度支持 IPSec 、TLS 和 MACsec 。

从 OpenShift 到 DPU 实现线速加密卸载将提高租户的数据安全性,并帮助您更接近零信任安全状态。

与 DPU 的其他潜在集成包括更复杂的软件定义的网络卸载、在 BlueField 上运行防火墙代理、精确时间同步、具有数据包匀速的视频流,以及使用 DPU 收集遥测数据。

NVIDIA 现已发售 BlueField-2 DPU ,BlueField -3 DPU 将于 2022 年晚些时候开始提供样品。此外,BlueField DPU 不久将在 NVIDIA LaunchPad 云服务中进行测试。

总结

 

如果您的组织寻求在数据中心采用云原生计算,NVIDIA BlueField DPU 、Red Hat Enterprise Linux 和 Red Hat OpenShift 的组合可以提供一个高效、创新的开放式混合云平台,具有全新的安全功能。这个强大的平台提供硬件加速功能,以运行关键的软件定义的网络、存储和安全功能。

现在,可以分配更多的服务器资源来运行云原生工作负载,以及传统的业务应用程序。

 

相关新闻