首页 > 最新资讯 > 借助 NVIDIA DPU 和 DOCA 为人工智能时代的数据中心带来变革
借助 NVIDIA DPU 和  DOCA 为人工智能时代的数据中心带来变革

借助 NVIDIA DPU 和 DOCA 为人工智能时代的数据中心带来变革

2023-03-30 15:23

#人工智能 #深度学习


 
 
正如 NVIDIA GTC 2023 的宣布,NVIDIA BlueField-3 DPU(数据处理器)现已全面投产,并被 Oracle 云基础设施(OCI)选择来实现更高的性能,更优的效率和更强的安全性。
 
作为一个 400 Gb/s 的基础设施计算平台,BlueField-3 DPU 使企业能够大规模部署和运营数据中心NVIDIA DOCA 软件框架现在已支持 BlueField-3 DPU,使成千上万的开发者能够利用第三代 DPU 平台的强大功能来快速创建加速的应用程序和服务。
 

从数据中心到人工智能工厂

 
数据中心是新兴的人工智能驱动型经济的核心,数据是原材料,人工智能算法是将数据转化为有价值见解的处理引擎。BlueField-3 DPU 是为全球数据中心提供动力的 NVIDIA 加速计算堆栈的基础。通过卸载、加速和隔离数据中心控制平面,BlueField-3 DPU 创建了一个安全、加速和可持续的基础设施,用于在节点集群中运行人工智能和其他现代工作负载,并作为一个统一的计算平台运行。
 
BlueField-3 DPU 专为数据中心规模的计算而设计,提供 400 Gb/s 以太网和 InfiniBand 网络连接,相比上一代可支持高达 4 倍的计算能力、高达 4 倍的加密加速性能、2 倍的存储处理性能和 4 倍的内存带宽,同时通过 NVIDIA DOCA 软件框架提供完全的向后兼容性。
 

NVIDIA DOCA 引领加速云服务的发展

 
NVIDIA DOCA 是专为 BlueField DPU 而设计的软件开发套件和加速框架。DOCA 旨在通过为 BlueField DPU 快速创建和部署应用程序和服务来解锁数据中心创新。
 
NVIDIA DOCA 拥有丰富的库、驱动程序和 API,可为 BlueField DPU 开发者提供 “一站式服务”,同时也是加速云基础设施服务的关键。这使得 NVIDIA DOCA 成为 NVIDIA 人工智能云服务战略的关键组成部分,该战略旨在为加速数据中心工作负载和大规模部署人工智能应用程序提供一个灵活而强大的平台。
 
目前,全球已有超过 4700 名注册早期访问的开发者使用 NVIDIA DOCA 来创建 BlueField DPU 应用程序,NVIDIA 很高兴的宣布 NVIDIA DOCA 全面面市,并向所有人开放访问。
图 1 . NVIDIA DOCA 2.0 软件框架

NVIDIA DOCA 2.0

支持全新的 BlueField-3 用例

 
最新发布的 NVIDIA DOCA 2.0 增加了对 BlueField-3 数据路径加速器( DPA )编程子系统的支持,包括 DOCA IPsec 加密/解密库、设备认证和 YARA 规则在内的多项安全增强功能。还包括对 DOCA Flow 库的增强功能。
 

NVIDIA DOCA 可为

BlueField-3 DPA 提供可编程性

NVIDIA DOCA 2.0 添加了增强功能,以利用 BlueField-3 DPA 编程子系统。DPA 是一种高度可编程的嵌入式处理器,存在于 BlueField-3 DPU 中。它专为网络密集型、低计算量任务而构建,如设备仿真、拥塞控制、自定义协议等。

NVIDIA DOCA DPA 库是 NVIDIA DOCA 软件开发套件的一部分,它提供了一种编程模型,用于卸载以网络为中心的代码,并在 DPA 处理器上运行。DPA 有助于从 CPU 卸载更多类型的流量,并通过 DPU 加速来提高性能。

 

将用于设备仿真的 VirtIO

卸载到 BlueField-3 DPA

在使用 VirtIO-net 进行设备仿真时,NVIDIA DOCA 和带有 DPA 的 BlueField-3 DPU 比以前的选项有了显著的改进。在虚拟化环境中,虚拟机(VM)需要像物理机一样访问网络。

在此示例中,虚拟机通常调用 CPU 来处理特定任务,例如访问网卡。将此任务从 CPU 卸载到 BlueField-3 DPU 上专门构建的 DPA 引擎,可实现比 BlueField-2 DPU 高 2 倍的性能,以更高的效率来助力降低数据中心功耗。这有效地消除了数据中心网络税,否则就会占用本该用于应用程序的 CPU 核心资源。

 

借助 NVIDIA DOCA IPsec 的安全通信

IPsec 是一种安全协议,提供加密、身份验证和完整性服务,以保护 IP 数据包免受未经授权的访问、篡改或窃听。对安全和高速通信的需求日益增长,这给传统基于 CPU 的 IPsec 处理带来了压力,使卸载成为一种有吸引力的解决方案。

在加速防火墙解决方案中,将 IPsec 卸载到 BlueField-3 DPU 可以优化安全性并加速性能。穿过防火墙的流量可以卸载到 DPU,并通过 IPsec 隧道发送到接收主机,例如,提供具有 200 Gbps 双向流量的 32K 并发 IPsec 隧道。这降低了 CPU 的利用率,并通过快速、高效的方法管理可信流量。需要进行威胁检查的剩余流量通过主机和 CPU 进行路由。此过程现已得到优化,由于 CPU 不再管理 IPsec 流量,因此防火墙应用程序可提供更好的性能。

DOCA IPsec 库的添加为下一代防火墙(NGFW)应用程序带来了显著的优势。库中包含的资源池,包括消息模板、预写代码和子例程,有助于简化整个开发流程并减少上市时间。DOCA IPsec 库与 DOCA Flow 库相互操作,使开发者能够将多个 DOCA Flow 管道链接在一起,用于各种网络管线设计(例如,DOCA Flow NAT 管道)。

最后,NVIDIA DOCA 现在能够以更高的速率对新路由和 NAT 表进行编程,使以接近线速速率进行 IPsec 加密和解密既可行又实用,同时减轻了 CPU 的负担。

 

5G 工作负载的高效 GPU 通信

NVIDIA Aerial 是一个用于构建高性能、软件定义 5G L1 堆栈的软件开发套件,并通过 GPU 的并行处理进行了优化。具体而言,NVIDIA Aerial 软件开发套件可用于构建基带单元(BBU)软件,该软件负责发送(下行链路)或接收(上行链路)的无线客户端数据帧,这些数据帧通过无线电单元(RU)分拆为多个以太网数据包。

在上行链路中,BBU 接收分组,验证它们,并在触发信号处理之前重建每个 RU 的原始数据帧。使用 NVIDIA Aerial 软件开发套件,这将发生在 GPU 中,每个时隙的 RU 都有一个专用的 CUDA 内核。然而,随着基站数量的增加,在网卡和 GPU 之间运行的 CPU 成为了瓶颈。

NVIDIA DOCA 软件框架提供了一种将 CPU 从关键路径中移除并实现网卡和 CUDA 内核之间的直接通信的方法(GPUDirect 异步内核启动技术)新的 DOCA GPUNetIO 库提供了 CUDA 设备功能,应用程序可以在 CUDA 内核中调用这些功能,以便直接向 GPU 发送或从 GPU 接收数据包,而无需使用 CPU 核心或内存。

通过这种方式,NVIDIA Aerial BBU 软件可以提供一种高度并行化和可扩展的方法,每个基站都有一个专用的 CUDA 内核来接收数据包。这使系统容量提高了 4 倍(从采用以 CPU 为中心的 4 个基站到通过 DOCA GPUNetIO 的以 GPU 为中心的 16 个基站)。

CPU 不再需要与 GPU 通信来提供数据包信息,使 CPU 能够专注于应用程序处理,而不是管理网络开销。

 

相关新闻