是选择在本地搭建GPU系统还是选择云计算?这是个问题
2019-09-25 10:32
在AI开发过程中,应该选择本地GPU系统还是云端?这就像是选择买房还是租房一样。
租房所需的前期资金较少,现收现付,家用电器和房屋维护的工作全部由业主负责。而租房者则去留相对自由,只要符合合同条款规定,就能相对自由地选择何时离开。
租赁云端GPU与租赁房屋类似,有着相同的优势:资金门槛低;由云服务供应商提供支持;并且相对自由,能够快速地向上或向下扩展不同规模的计算集群。
而买房则相对的是一种一次性的、成本固定的投资——一旦你购买了一处房产,你想呆多久就呆多久。而且业主对于房子拥有完全的主权,没有租赁协议的限制,业主想怎么用就怎么用,即便是邀请几个亲朋好友来住一段时间,也是可以的。
这和投资本地GPU的理由是一样的:只要是在硬件设备的可处理范围内,用户可以在一套本地化系统上想用多久就用多久,想运行几个项目就运行几个项目。而且还可以自由地尝试不同方法,使其变得更容易迭代,而无需考虑成本问题。而且,对于诸如财务信息或医疗记录等敏感数据来说,把所有这些数据内容保护在企业机构的防火墙之内是十分有必要的。
根据当前的用例和所涉及的数据类型,开发人员可以选择在桌面系统、本地数据中心或是在云端构建他们的AI工具。而在整个开发过程中——在从最初的实验到大规模应用,他们很有可能会因为在不同的时间点有不同需求,而从一个环境迁移到另一个环境中。
云端GPU应用
云端GPU可被用于多种任务中,如训练多语言AI语音引擎、检测糖尿病导致失明的早期迹象,以及开发媒体压缩技术。借助于云端GPU,创业公司、学者和创作者们可以快速开始工作,探索新的想法和实验,而无需长期关注于特定规模或配置的GPU。
用户可以通过所有主流云平台访问NVIDIA数据中心GPU,包括:阿里云, AWS, 谷歌云, IBM Cloud, Microsoft Azure 和Oracle Cloud Infrastructure。
云服务供应商通过为开发人员提供有用的资源,如开发工具、预训练的神经网络和技术支持,帮助用户进行设置、故障排除。当面临海量的训练数据涌入,或是一个试点项目启动,亦或是有大量新用户新增进来的时候,云计算能够让企业轻松地扩展其基础设施,以应对不断变化的计算资源需求。
为了提高成本效益,在使用云进行研究、应用程序容器化、实验或其它对时间要求不高的项目的时候,开发者还可以选择使用闲置的容量,并获得最高达90%的折扣。这种模式被称为“spot instances(点实例)”,能够有效地将云GPU上的空间转租给其他用户。
长期使用云计算的用户也可以升级使用最新、最强大的数据中心GPU,因为云提供商会经常更新他们的产品,并且经常会为持续使用平台的用户提供优惠折扣。
本地GPU应用
当需要使用规模庞大的数据构建复杂的AI模型时,长期的项目开发周期有时会使得运营成本上升。这时,开发者可能需要慎重地运行每一次迭代或是训练,以控制成本,但这也降低了实验的自由度。这种时候,本地化GPU系统的优势就凸现了出来,只需要一次性投入,就能给开发者提供无限次的迭代和测试时间。
使用本地GPU的数据科学家、学生和企业不必算计他们的系统使用时间,也不必为他们在特定时间段内能够承受多少次运行做预算。
即便一个方法失败了,不需要额外的投入,就可以开始试验新的代码,这将鼓励开发人员充分发挥他们的创造力。而且,对于一套本地系统来说,其使用率越高,投资回报就越大。
从功能强大的桌面 GPU到工作站和企业级系统,本地化AI机器有很多选择。根据价格和性能的需要,开发人员可能会从单个NVIDIA GPU或工作站开始,并最终升级到一个AI超级计算机集群。
NVIDIA和VMware通过vComputeServer软件和NVIDIA NGC容器注册表为现代化的虚拟数据中心提供支持。这些帮助企业机构使用GPU服务器优化虚拟环境中AI工作负载的部署和管理。
医疗健康企业、 人权组织和金融服务机构都有着严格的数据主权和隐私标准。基于本地化的深度学习系统,它们可以使得部署人工智能变得更容易的同时,遵守数据隐私政策并将网络安全风险降至最低。
混合云架构应用
对于许多企业来说,仅仅选择一种方法是不够的。混合云计算将本地化与云端两者结合了起来,使用户既能享有本地化系统的安全性和可管理性,又能享受到由服务供应商提供的公共云资源。
混合云可以在本地资源计算能力达到顶峰时,为用户提供额外的计算资源,以满足高峰需求,这种模式被称为“云爆发(cloud bursting)”。或者企业还可以使用本地数据中心来处理其最敏感的数据,同时在混合云中运行动态的、计算密集型任务。
许多企业的数据中心都已经实现了虚拟化,并希望部署一个与企业现有计算资源一致的混合云。NVIDIA与Mware Cloud 在AWS上合作,为现代企业应用程序(包括AI、机器学习和数据分析工作流)提供GPU加速服务。
这项服务将允许混合云用户在数据中心的GPU加速虚拟服务器和VMware Cloud之间无缝地协调和实时迁移AI工作负载。
两全其美
选择云计算还是本地化GPU?这并不是一个公司或是一个研发团队根据一个AI开发项目就能做出的决定。开发者需要在整个项目开发周期中反复问自己这个问题,在不同的阶段,需求是不同的。
一家初创企业在开始的时候可能会在云端做一些早期原型,然后会切换到桌面系统或GPU工作站上开发和训练其深度学习模型。之后,根据客户需求波动使用的集群数量,它可以转而回到云端,扩大生产规模。最后,随着该公司建立起了自己的全球基础设施,它还可能会投资一个GPU驱动的本地化数据中心。
一些企业机构,例如那些通过构建AI模型来处理高度机密信息的机构,可能自始至终都会坚持使用本地化设备。其他公司则可能会选择云计算,而不会建立一个基于本地化的数据中心。
对于这些企业机构来说,决定它们如何做出选择的一个关键因素,是它们的数据保存在哪里——在哪里保存就在哪里进行训练。如果一个企业的数据保存在云服务器中,那么在云中开发AI模型可能就是最经济有效的,这样就无需再将数据传送到本地系统上进行训练。如果训练数据集是保存在本地服务器上的,那么投资本地化的GPU集群可能会是一个不错的选择。
无论团队采用哪种方式来使用GPU加速器AI开发,NVIDIA的开发者资源都会为工程师们提供支持,包括:SDK、容器和开源项目。此外,NVIDIA深度学习学院还为开发者、数据科学家、研究人员和学生提供实践培训,学习如何使用加速计算工具。
租房所需的前期资金较少,现收现付,家用电器和房屋维护的工作全部由业主负责。而租房者则去留相对自由,只要符合合同条款规定,就能相对自由地选择何时离开。
租赁云端GPU与租赁房屋类似,有着相同的优势:资金门槛低;由云服务供应商提供支持;并且相对自由,能够快速地向上或向下扩展不同规模的计算集群。
而买房则相对的是一种一次性的、成本固定的投资——一旦你购买了一处房产,你想呆多久就呆多久。而且业主对于房子拥有完全的主权,没有租赁协议的限制,业主想怎么用就怎么用,即便是邀请几个亲朋好友来住一段时间,也是可以的。
这和投资本地GPU的理由是一样的:只要是在硬件设备的可处理范围内,用户可以在一套本地化系统上想用多久就用多久,想运行几个项目就运行几个项目。而且还可以自由地尝试不同方法,使其变得更容易迭代,而无需考虑成本问题。而且,对于诸如财务信息或医疗记录等敏感数据来说,把所有这些数据内容保护在企业机构的防火墙之内是十分有必要的。
根据当前的用例和所涉及的数据类型,开发人员可以选择在桌面系统、本地数据中心或是在云端构建他们的AI工具。而在整个开发过程中——在从最初的实验到大规模应用,他们很有可能会因为在不同的时间点有不同需求,而从一个环境迁移到另一个环境中。
云端GPU应用
云端GPU可被用于多种任务中,如训练多语言AI语音引擎、检测糖尿病导致失明的早期迹象,以及开发媒体压缩技术。借助于云端GPU,创业公司、学者和创作者们可以快速开始工作,探索新的想法和实验,而无需长期关注于特定规模或配置的GPU。
用户可以通过所有主流云平台访问NVIDIA数据中心GPU,包括:阿里云, AWS, 谷歌云, IBM Cloud, Microsoft Azure 和Oracle Cloud Infrastructure。
云服务供应商通过为开发人员提供有用的资源,如开发工具、预训练的神经网络和技术支持,帮助用户进行设置、故障排除。当面临海量的训练数据涌入,或是一个试点项目启动,亦或是有大量新用户新增进来的时候,云计算能够让企业轻松地扩展其基础设施,以应对不断变化的计算资源需求。
为了提高成本效益,在使用云进行研究、应用程序容器化、实验或其它对时间要求不高的项目的时候,开发者还可以选择使用闲置的容量,并获得最高达90%的折扣。这种模式被称为“spot instances(点实例)”,能够有效地将云GPU上的空间转租给其他用户。
长期使用云计算的用户也可以升级使用最新、最强大的数据中心GPU,因为云提供商会经常更新他们的产品,并且经常会为持续使用平台的用户提供优惠折扣。
本地GPU应用
当需要使用规模庞大的数据构建复杂的AI模型时,长期的项目开发周期有时会使得运营成本上升。这时,开发者可能需要慎重地运行每一次迭代或是训练,以控制成本,但这也降低了实验的自由度。这种时候,本地化GPU系统的优势就凸现了出来,只需要一次性投入,就能给开发者提供无限次的迭代和测试时间。
使用本地GPU的数据科学家、学生和企业不必算计他们的系统使用时间,也不必为他们在特定时间段内能够承受多少次运行做预算。
即便一个方法失败了,不需要额外的投入,就可以开始试验新的代码,这将鼓励开发人员充分发挥他们的创造力。而且,对于一套本地系统来说,其使用率越高,投资回报就越大。
从功能强大的桌面 GPU到工作站和企业级系统,本地化AI机器有很多选择。根据价格和性能的需要,开发人员可能会从单个NVIDIA GPU或工作站开始,并最终升级到一个AI超级计算机集群。
NVIDIA和VMware通过vComputeServer软件和NVIDIA NGC容器注册表为现代化的虚拟数据中心提供支持。这些帮助企业机构使用GPU服务器优化虚拟环境中AI工作负载的部署和管理。
医疗健康企业、 人权组织和金融服务机构都有着严格的数据主权和隐私标准。基于本地化的深度学习系统,它们可以使得部署人工智能变得更容易的同时,遵守数据隐私政策并将网络安全风险降至最低。
混合云架构应用
对于许多企业来说,仅仅选择一种方法是不够的。混合云计算将本地化与云端两者结合了起来,使用户既能享有本地化系统的安全性和可管理性,又能享受到由服务供应商提供的公共云资源。
混合云可以在本地资源计算能力达到顶峰时,为用户提供额外的计算资源,以满足高峰需求,这种模式被称为“云爆发(cloud bursting)”。或者企业还可以使用本地数据中心来处理其最敏感的数据,同时在混合云中运行动态的、计算密集型任务。
许多企业的数据中心都已经实现了虚拟化,并希望部署一个与企业现有计算资源一致的混合云。NVIDIA与Mware Cloud 在AWS上合作,为现代企业应用程序(包括AI、机器学习和数据分析工作流)提供GPU加速服务。
这项服务将允许混合云用户在数据中心的GPU加速虚拟服务器和VMware Cloud之间无缝地协调和实时迁移AI工作负载。
两全其美
选择云计算还是本地化GPU?这并不是一个公司或是一个研发团队根据一个AI开发项目就能做出的决定。开发者需要在整个项目开发周期中反复问自己这个问题,在不同的阶段,需求是不同的。
一家初创企业在开始的时候可能会在云端做一些早期原型,然后会切换到桌面系统或GPU工作站上开发和训练其深度学习模型。之后,根据客户需求波动使用的集群数量,它可以转而回到云端,扩大生产规模。最后,随着该公司建立起了自己的全球基础设施,它还可能会投资一个GPU驱动的本地化数据中心。
一些企业机构,例如那些通过构建AI模型来处理高度机密信息的机构,可能自始至终都会坚持使用本地化设备。其他公司则可能会选择云计算,而不会建立一个基于本地化的数据中心。
对于这些企业机构来说,决定它们如何做出选择的一个关键因素,是它们的数据保存在哪里——在哪里保存就在哪里进行训练。如果一个企业的数据保存在云服务器中,那么在云中开发AI模型可能就是最经济有效的,这样就无需再将数据传送到本地系统上进行训练。如果训练数据集是保存在本地服务器上的,那么投资本地化的GPU集群可能会是一个不错的选择。
无论团队采用哪种方式来使用GPU加速器AI开发,NVIDIA的开发者资源都会为工程师们提供支持,包括:SDK、容器和开源项目。此外,NVIDIA深度学习学院还为开发者、数据科学家、研究人员和学生提供实践培训,学习如何使用加速计算工具。