GTC22 | 全新 DGX 系统软件和基础设施解决方案强效赋能企业 AI
2022-09-30 14:10
#人工智能 #深度学习 #GTC22 分享到微信 分享到微博
新一批创新企业开始基于 DGX 系统、Base Command 和 DGX SuperPOD 来实现 AI,包括 Adept AI、现代汽车集团、KT 和威斯康星大学麦迪逊分校。
在GTC 大会上,NVIDIA 公布了DGX 产品系列的多项更新,有望推动企业级 AI 开发实现新突破。
NVIDIA DGX H100 系统现已提供订购。这些基础设施的基础构建模块支持 NVIDIA 的全栈企业级 AI 解决方案。
NVIDIA DGX H100 在 FP8 精度下提供 32 petaflop 的性能,将能大幅提升企业级 AI 开发的效率。与上一代系统相比,DGX H100 的总体拥有成本降至1/3,能效提高 3.5 倍。
新的 NVIDIA Base Command 软件可简化和加速 AI 开发,有力支持从单节点到 DGX SuperPOD 的各种 DGX 系统高效运行。
此外,NVIDIA DGX BasePOD(DGX POD 的进阶版)也揭开了面纱,它使 IT 团队能更快速轻松地获得、部署和管理企业级数据中心 AI。
全球许多 AI 领军企业都在使用 NVIDIA DGX 系统和软件,致力于寻求技术突破(从自动驾驶汽车到语音助手),且从未放缓创新的步伐。
全新 NVIDIA Base Command 功能
NVIDIA Base Command 提供企业级编排和集群管理功能,并且包含完整的软件栈,以尽可能地提高 AI 开发者的工作效率、IT 可管理性和工作负载性能。
Base Command 的工作流管理功能现在包含对本地 DGX SuperPOD 环境的支持,使企业能通过简化的项目团队协作、集成的监控和报告面板来集中控制 AI 开发项目。
Base Command 与 NVIDIA AI Enterprise 软件套件配合使用,该套件现已包含在所有 DGX 系统中。借助此 NVIDIA AI 软件,客户可以使用其所支持的 AI 和数据科学工具、优化的框架和预训练模型,进行端到端 AI 开发和部署。
另外,此软件还能与以下公司的企业工作流管理和 MLOps 工具进行集成:DGX-Ready 软件提供商 Domino Data Lab、Run.ai、Weights & Biases,以及NVIDIA初创加速计划成员 Rescale。此软件还包含多个库,不仅能优化和加速计算、存储和网络基础设施,还能确保尽可能地延长系统的正常运行时间、安全性和可靠性。
全新 DGX BasePOD 参考架构
DGX BasePOD 为 DGX 系统提供参考架构,该架构融合了集成计算、网络、存储和软件方面的最佳设计实践。
客户已经使用 NVIDIA DGX POD 来推动各种企业应用的开发。DGX BasePOD 基于DGX POD 的成功,其新型行业解决方案瞄准了 AI 领域的巨大机遇,包括自然语言处理、医疗健康和生命科学以及欺诈检测。
DGX BasePOD 解决方案通过 NVIDIA 合作伙伴网络,作为完全集成、可随时部署的产品提供给客户,其规模介于两个到数百个 DGX 系统之间,并采用由以下 NVIDIA DGX 存储技术合作伙伴开发的认证高性能存储技术:DDN、戴尔、NetApp、Pure Storage、VAST Data 和 WEKA 等。
领军企业借助 DGX 系统推动 AI 开发实现突破
世界各地的许多企业都选择 NVIDIA DGX 系统来有效运行其高级 AI 工作负载。以下是在 DGX A100 系统上开发任务关键型 AI 功能的部分 AI 创新者:
机器学习研究和产品实验室 Adept 正在打造基于大型语言模型的 AI 团队成员,其原型基于 NVIDIA DGX Foundry 开发,然后利用 Oracle Cloud Infrastructure上的 NVIDIA A100 GPU 和 NVIDIA Megatron 进行扩展。
现代汽车集团正使用 40 个节点的 DGX SuperPOD,探索研究超大规模 AI 工作负载。
电信公司 KT 正在使用 NVIDIA NeMo Megatron 框架、NVIDIA DGX SuperPOD 和 NVIDIA Base Command 软件,为各种韩语应用(包括 GiGA Genie 智能扬声器)开发一个包含大约 400 亿参数的 LLM。
威斯康星大学麦迪逊分校正在将 NVIDIA DGX 系统与 Flywheel 研究平台以及 NVIDIA Clara 医疗健康应用框架一起使用,致力于快速将 AI 引入到医学成像设备中。该大学与其他医院合作,使用 NVIDIA 联邦学习应用运行时环境 (NVIDIA FLARE) 在 DGX 系统上安全地训练用于医学成像、标注数据和分类的 AI 模型。