是选择在本地搭建GPU系统还是选择云计算？这是个问题

2019-09-25 10:32

在AI开发过程中，应该选择本地GPU系统还是云端？这就像是选择买房还是租房一样。

租房所需的前期资金较少，现收现付，家用电器和房屋维护的工作全部由业主负责。而租房者则去留相对自由，只要符合合同条款规定，就能相对自由地选择何时离开。

租赁云端GPU与租赁房屋类似，有着相同的优势：资金门槛低；由云服务供应商提供支持；并且相对自由，能够快速地向上或向下扩展不同规模的计算集群。

而买房则相对的是一种一次性的、成本固定的投资——一旦你购买了一处房产，你想呆多久就呆多久。而且业主对于房子拥有完全的主权，没有租赁协议的限制，业主想怎么用就怎么用，即便是邀请几个亲朋好友来住一段时间，也是可以的。

这和投资本地GPU的理由是一样的：只要是在硬件设备的可处理范围内，用户可以在一套本地化系统上想用多久就用多久，想运行几个项目就运行几个项目。而且还可以自由地尝试不同方法，使其变得更容易迭代，而无需考虑成本问题。而且，对于诸如财务信息或医疗记录等敏感数据来说，把所有这些数据内容保护在企业机构的防火墙之内是十分有必要的。

根据当前的用例和所涉及的数据类型，开发人员可以选择在桌面系统、本地数据中心或是在云端构建他们的AI工具。而在整个开发过程中——在从最初的实验到大规模应用，他们很有可能会因为在不同的时间点有不同需求，而从一个环境迁移到另一个环境中。

云端GPU应用

云端GPU可被用于多种任务中，如训练多语言AI语音引擎、检测糖尿病导致失明的早期迹象，以及开发媒体压缩技术。借助于云端GPU，创业公司、学者和创作者们可以快速开始工作，探索新的想法和实验，而无需长期关注于特定规模或配置的GPU。

用户可以通过所有主流云平台访问NVIDIA数据中心GPU，包括：阿里云, AWS, 谷歌云, IBM Cloud, Microsoft Azure 和Oracle Cloud Infrastructure。

云服务供应商通过为开发人员提供有用的资源，如开发工具、预训练的神经网络和技术支持，帮助用户进行设置、故障排除。当面临海量的训练数据涌入，或是一个试点项目启动，亦或是有大量新用户新增进来的时候，云计算能够让企业轻松地扩展其基础设施，以应对不断变化的计算资源需求。

为了提高成本效益，在使用云进行研究、应用程序容器化、实验或其它对时间要求不高的项目的时候，开发者还可以选择使用闲置的容量，并获得最高达90%的折扣。这种模式被称为“spot instances（点实例）”，能够有效地将云GPU上的空间转租给其他用户。

长期使用云计算的用户也可以升级使用最新、最强大的数据中心GPU，因为云提供商会经常更新他们的产品，并且经常会为持续使用平台的用户提供优惠折扣。

本地GPU应用

当需要使用规模庞大的数据构建复杂的AI模型时，长期的项目开发周期有时会使得运营成本上升。这时，开发者可能需要慎重地运行每一次迭代或是训练，以控制成本，但这也降低了实验的自由度。这种时候，本地化GPU系统的优势就凸现了出来，只需要一次性投入，就能给开发者提供无限次的迭代和测试时间。

使用本地GPU的数据科学家、学生和企业不必算计他们的系统使用时间，也不必为他们在特定时间段内能够承受多少次运行做预算。

即便一个方法失败了，不需要额外的投入，就可以开始试验新的代码，这将鼓励开发人员充分发挥他们的创造力。而且，对于一套本地系统来说，其使用率越高，投资回报就越大。

从功能强大的桌面 GPU到工作站和企业级系统，本地化AI机器有很多选择。根据价格和性能的需要，开发人员可能会从单个NVIDIA GPU或工作站开始，并最终升级到一个AI超级计算机集群。

NVIDIA和VMware通过vComputeServer软件和NVIDIA NGC容器注册表为现代化的虚拟数据中心提供支持。这些帮助企业机构使用GPU服务器优化虚拟环境中AI工作负载的部署和管理。

医疗健康企业、人权组织和金融服务机构都有着严格的数据主权和隐私标准。基于本地化的深度学习系统，它们可以使得部署人工智能变得更容易的同时，遵守数据隐私政策并将网络安全风险降至最低。

混合云架构应用

对于许多企业来说，仅仅选择一种方法是不够的。混合云计算将本地化与云端两者结合了起来，使用户既能享有本地化系统的安全性和可管理性，又能享受到由服务供应商提供的公共云资源。

混合云可以在本地资源计算能力达到顶峰时，为用户提供额外的计算资源，以满足高峰需求，这种模式被称为“云爆发（cloud bursting）”。或者企业还可以使用本地数据中心来处理其最敏感的数据，同时在混合云中运行动态的、计算密集型任务。

许多企业的数据中心都已经实现了虚拟化，并希望部署一个与企业现有计算资源一致的混合云。NVIDIA与Mware Cloud 在AWS上合作，为现代企业应用程序（包括AI、机器学习和数据分析工作流）提供GPU加速服务。

这项服务将允许混合云用户在数据中心的GPU加速虚拟服务器和VMware Cloud之间无缝地协调和实时迁移AI工作负载。

两全其美

选择云计算还是本地化GPU？这并不是一个公司或是一个研发团队根据一个AI开发项目就能做出的决定。开发者需要在整个项目开发周期中反复问自己这个问题，在不同的阶段，需求是不同的。

一家初创企业在开始的时候可能会在云端做一些早期原型，然后会切换到桌面系统或GPU工作站上开发和训练其深度学习模型。之后，根据客户需求波动使用的集群数量，它可以转而回到云端，扩大生产规模。最后，随着该公司建立起了自己的全球基础设施，它还可能会投资一个GPU驱动的本地化数据中心。

一些企业机构，例如那些通过构建AI模型来处理高度机密信息的机构，可能自始至终都会坚持使用本地化设备。其他公司则可能会选择云计算，而不会建立一个基于本地化的数据中心。

对于这些企业机构来说，决定它们如何做出选择的一个关键因素，是它们的数据保存在哪里——在哪里保存就在哪里进行训练。如果一个企业的数据保存在云服务器中，那么在云中开发AI模型可能就是最经济有效的，这样就无需再将数据传送到本地系统上进行训练。如果训练数据集是保存在本地服务器上的，那么投资本地化的GPU集群可能会是一个不错的选择。

无论团队采用哪种方式来使用GPU加速器AI开发，NVIDIA的开发者资源都会为工程师们提供支持，包括：SDK、容器和开源项目。此外，NVIDIA深度学习学院还为开发者、数据科学家、研究人员和学生提供实践培训，学习如何使用加速计算工具。

分享到微信分享到微博

精彩推荐

GTC22 秋季10大精彩内容