首页 > 最新资讯 > GTC21 | 下一代DGX SuperPOD将开启云原生超级计算时代
GTC21 | 下一代DGX SuperPOD将开启云原生超级计算时代

GTC21 | 下一代DGX SuperPOD将开启云原生超级计算时代

2021-04-23 19:39

#人工智能 #深度学习


 
 
随着企业将AI和数据科学引入每位开发者的工作中,IT需要实现对超级计算的无缝、可扩展访问,并使其具有如同云一样的简易性和安全性。

GTC21上,NVIDIA发布了最新的NVIDIA DGX SuperPOD,它能够为企业、IT及其用户提供一个可在整个企业内保护并扩展AI的平台。NVIDIA DGX SuperPOD随附进行管理所需的必要软件,并提供操作帮助的优质交付体验。

批量解决AI领域内各种挑战

自发布后,DGX SuperPOD使企业能够在基础设施上扩展开发,从而在合理时间内处理以前无法解决的规模性及复杂性问题。其AI基础设施依照NVIDIA的自有方式进行构建和管理。

随着AI渗透到现代商业的方方面面,开发工作需要几乎无限的计算资源,而这种需求正在呈指数级增长。自然语言处理、推荐系统和临床研究等关键业务应用,便是这种需求增长的例证。

企业及机构通常会通过两种方式应用DGX SuperPOD的强大功能。部分企业及机构用它来解决庞大、单一的问题,例如对话式AI,在这种情况下,整个DGX SuperPOD的计算能力都被用来加速复杂的自然语言处理模型的训练。

其他企业及机构则使用DGX SuperPOD服务整个公司,为多个团队开放对系统的访问,以支持各种项目中不断变化的需求。在这种模式下,企业IT通常充当服务提供商管理此类AI基础设施即服务,将多个用户(甚至可能是对立的用户)的工作和数据彼此隔离。

采用BlueField DPU的DGX SuperPOD

企业越来越需要将高性能AI超级计算纳入运营模式中,在这种模式下,众多开发者可确保其工作的安全性,并且能够像在云中一样被隔离。IT可以像管理私有云一样管理环境,能够在安全的多租户环境中根据任务大小分配资源。

这被称为云原生超级计算,由NVIDIA BlueField-2 DPU提供支持,为AI基础设施带来加速的软件定义数据中心网络、存储、安全和管理服务。

借助针对企业部署进行优化的DPU以及200 Gbps 的网络连接,企业能够以先进、高速、完全可编程的网络来实现零信任安全,以防止违规,并以裸机性能隔离用户和数据。

凭借每个DGX A100节点中集成的两个NVIDIA BlueField-2 DPU,所有的DGX SuperPOD现在都具备这一功能。IT管理员可以使用NVIDIA BlueField DPU的卸载、加速和隔离功能,在不影响DGX SuperPOD 的AI性能的前提下,为多租户安全的共享AI基础设施。

使用Base Command Manager进行基础设施管理

NVIDIA的内部DGX SATURNV基础设施上包括 2000 多个DGX 系统。每周,NVIDIA都会对其执行的数千个AI工作负载进行管理。目前,该基础设施已支持超过200个团队的2500多名开发者运行了超过120万项工作。NVIDIA始终致力于开发最先进的基础设施管理软件,以确保每个开发者在进行研究和开发自主系统技术、机器人、模拟时,都能充分发挥生产力。

该软件支持所有这些工作,能够简化管理、精简管理流程,并且让NVIDIA IT团队能够监测运行状况、利用率、性能等。NVIDIA在DGX SuperPOD上增设了同样的软件——NVIDIA Base Command Manager,帮助企业以NVIDIA的方式运行自身的系统环境。NVIDIA将不断改进Base Command Manager,自动向客户提供最新的创新服务。

优质交付服务

部署AI基础设施不仅仅是在数据中心机架中安装服务器和存储。当企业决定扩展AI时,需要一种密切合作体验来指导他们完成设计、部署和操作,而非需要其IT团队自行费力研究,如此可让他们在“交钥匙”后就能知道如何运行。

借助DGX SuperPOD优质交付服务,客户可以享受到完整生命周期服务体验,从安装到操作的过程均配有经认证的专家提供支持。客户将能够受益于NVIDIA自有验收集群上认证的交付前功能测试,可以在交付前验证所部署的系统是否按照规范运行。

优质交付服务中还包含一个专用的NVIDIA多学科团队,能够解决使用中的任何问题,包括从安装到基础设施管理、工作流程,到解决影响性能的瓶颈和优化。采用DGX SuperPOD后得到的服务,能够让IT领导者对其业务放心并充满信心。

相关新闻