首页 > 最新资讯 > 如何通过混合云基础设施消除发展障碍
如何通过混合云基础设施消除发展障碍

如何通过混合云基础设施消除发展障碍

2021-01-18 18:50

#人工智能 #深度学习


基于NVIDIA DGX系统,采用Google Cloud Anthos构建灵活架构的企业,可满足日常及偶发的高峰需求,AI开发的全生命周期尽在掌握。

云端还是本地?这是许多机构在构建AI基础设施时会提出的问题。

云计算可助力开发者以最低的成本快速入门,非常适合早期实验,以及临时需求的支持。

但是,随着企业AI模型的迭代,这些模型会变得日益复杂,需要消耗更长的计算周期,数据集也会成倍增长。将大型数据集从生成数据之处传送到计算资源所在之处,会花费更多的时间和金钱,因此数据引力的成本可能会逐步上升。

这种AI开发的“减速带”通常是一个拐点,让各个机构意识到本地或配套基础设施可带来运营支出优势。其成本固定,并支持以最低的“每次训练运行成本”快速迭代,从而对云端进行补充。

相反,有些机构的数据集创建于云端,并存储于云端。对于这些机构,获取与数据相邻的计算资源就很有意义。无论是在本地还是云端,尽可能将大量数据置于靠近计算资源的位置,有助于尽可能地减少数据传输,从而最大程度地减少数据引力对运营成本的影响。

拥有本地基础设施

高峰时租用公有云

 

最终采用混合云基础设施的企业会遵循一个熟悉的轨迹。

开发图像识别应用程序的客户,可立即从云端快速且轻松的启动中获益。

随着其数据库逐渐增长至数百万张图像,成本增加且处理速度变慢,从而导致数据科学家在完善模型时更加谨慎。

在这一转折点上,即当固定成本基础设施被证明是合理时,他们将训练工作负载转移到了本地NVIDIA DGX系统上,以此立即重新快速开展创造性的实验,从而使企业能够在云技术搭建的良好开端的基础上发展。

所谓“拥有本地基础设施,高峰时租用公有云”(Own the Base, Rent the Spike),指的就是这种情况。企业IT配备本地DGX基础设施,以支持稳定数量的AI工作负载,在需要额外容量时,也能扩展到云端。

这种混合云方式可确保开发者持续获得计算资源,同时确保最低的每次训练成本。

 

通过DGX和裸金属Google Cloud Anthos

提供AI混合云

 

为帮助企业采用混合云基础设施,NVIDIA为DGX A100系统引入了对裸金属Google Cloud Anthos的支持。

对于使用Kubernetes来跨越云GPU计算实例和本地DGX基础设施的客户,裸金属Anthos可在整体部署中提供一致的开发和运营体验,同时减少昂贵的开销,并提高开发者的生产力。

这能够为企业带来诸多益处。尽管许多企业在其数据中心中实施了GPU加速的AI,但全球许多地方仍在使用老旧的x86计算基础设施。借助裸金属Anthos,IT部门可轻松地将本地DGX系统安装到其基础设施中,以处理AI工作负载,并以熟悉的方式对其进行管理,而无需管理程序层。

无需虚拟机,裸金属Anthos就能管理当前环境中的应用程序部署和运行状况,从而提高运营效率。裸金属Anthos还能管理各种性能的应用程序容器、各类GPU优化的硬件,并允许应用程序直接访问硬件。

Google Cloud合作伙伴工程总监Rayn Veerubhotla表示:“裸金属Anthos让客户能够以更多方式,在更多地点运行应用程序和工作负载。NVIDIA对裸金属Anthos的支持,意味着客户可直接在其硬件上无缝部署NVIDIA GPU设备插件,从而提高性能和灵活性,在混合环境中平衡机器学习工作负载。”

此外,团队身在任何地点都能访问自己常用的NVIDIA NGC 容器、Helm图表和AI模型。

通过这种结合,企业能够享受到Google Cloud所提供资源的快速启动和弹性的优势,以及专用的本地DGX基础设施的安全性能。

相关新闻