GTC21 | 下一代DGX SuperPOD将开启云原生超级计算时代
2021-04-23 19:39
在GTC21上,NVIDIA发布了最新的NVIDIA DGX SuperPOD,它能够为企业、IT及其用户提供一个可在整个企业内保护并扩展AI的平台。NVIDIA DGX SuperPOD随附进行管理所需的必要软件,并提供操作帮助的优质交付体验。
批量解决AI领域内各种挑战
自发布后,DGX SuperPOD使企业能够在基础设施上扩展开发,从而在合理时间内处理以前无法解决的规模性及复杂性问题。其AI基础设施依照NVIDIA的自有方式进行构建和管理。
随着AI渗透到现代商业的方方面面,开发工作需要几乎无限的计算资源,而这种需求正在呈指数级增长。自然语言处理、推荐系统和临床研究等关键业务应用,便是这种需求增长的例证。
企业及机构通常会通过两种方式应用DGX SuperPOD的强大功能。部分企业及机构用它来解决庞大、单一的问题,例如对话式AI,在这种情况下,整个DGX SuperPOD的计算能力都被用来加速复杂的自然语言处理模型的训练。
其他企业及机构则使用DGX SuperPOD服务整个公司,为多个团队开放对系统的访问,以支持各种项目中不断变化的需求。在这种模式下,企业IT通常充当服务提供商管理此类AI基础设施即服务,将多个用户(甚至可能是对立的用户)的工作和数据彼此隔离。
采用BlueField DPU的DGX SuperPOD
企业越来越需要将高性能AI超级计算纳入运营模式中,在这种模式下,众多开发者可确保其工作的安全性,并且能够像在云中一样被隔离。IT可以像管理私有云一样管理环境,能够在安全的多租户环境中根据任务大小分配资源。
这被称为云原生超级计算,由NVIDIA BlueField-2 DPU提供支持,为AI基础设施带来加速的软件定义数据中心网络、存储、安全和管理服务。
借助针对企业部署进行优化的DPU以及200 Gbps 的网络连接,企业能够以先进、高速、完全可编程的网络来实现零信任安全,以防止违规,并以裸机性能隔离用户和数据。
凭借每个DGX A100节点中集成的两个NVIDIA BlueField-2 DPU,所有的DGX SuperPOD现在都具备这一功能。IT管理员可以使用NVIDIA BlueField DPU的卸载、加速和隔离功能,在不影响DGX SuperPOD 的AI性能的前提下,为多租户安全的共享AI基础设施。
使用Base Command Manager进行基础设施管理
该软件支持所有这些工作,能够简化管理、精简管理流程,并且让NVIDIA IT团队能够监测运行状况、利用率、性能等。NVIDIA在DGX SuperPOD上增设了同样的软件——NVIDIA Base Command Manager,帮助企业以NVIDIA的方式运行自身的系统环境。NVIDIA将不断改进Base Command Manager,自动向客户提供最新的创新服务。
优质交付服务
部署AI基础设施不仅仅是在数据中心机架中安装服务器和存储。当企业决定扩展AI时,需要一种密切合作体验来指导他们完成设计、部署和操作,而非需要其IT团队自行费力研究,如此可让他们在“交钥匙”后就能知道如何运行。
借助DGX SuperPOD优质交付服务,客户可以享受到完整生命周期服务体验,从安装到操作的过程均配有经认证的专家提供支持。客户将能够受益于NVIDIA自有验收集群上认证的交付前功能测试,可以在交付前验证所部署的系统是否按照规范运行。
优质交付服务中还包含一个专用的NVIDIA多学科团队,能够解决使用中的任何问题,包括从安装到基础设施管理、工作流程,到解决影响性能的瓶颈和优化。采用DGX SuperPOD后得到的服务,能够让IT领导者对其业务放心并充满信心。