首页 > 最新资讯 > 加速网络就是加速业务,NVIDIA 打造数字时代新动力
加速网络就是加速业务,NVIDIA 打造数字时代新动力

加速网络就是加速业务,NVIDIA 打造数字时代新动力

2021-04-23 19:42

#人工智能 #深度学习


在迈向数字化的过程中,我们缺乏什么?

是计算吗?不,我们有丰富的计算资源,从 CPU 到 GPU 再到更多的异构计算平台,市场中提供了五花八门的解决方案;是存储吗?也不是,从传统的 HDD 到如今的 SSD,我们的存储速度和效率都获得了飞跃;是网络吗?更不完全,如今100G 网络已经成为行业主流,更快速的 200G 甚至 400G 网络也出现了,在移动端 5G 网络和 WIFI6 也成为了大势所趋。

如此看来,我们似乎在计算、存储、网络这三大领域都不缺乏,那为什么我们在数字化的道路上还会遇到众多的拦路虎?为什么性能还是限制许多客户实现数字化转型的关键呢?这就在于虽然我们已经掌握了越来越多的资源,但是在资源的有效利用层面还做的很不够。或者说,我们没有把“好钢用在刀刃上”,而要想实现这一点,就需要做到两个字 —— 加速。

许多人都有使用网络加速器的经历,而这里的加速效果是非常明显的 —— 原本红色的时延在加速之后变成了绿色,原本卡顿的画面也变得异常流畅,甚至原本断断续续的语音聊天都变得无比清晰……就是加速的作用。

而其实不仅仅在网络上,包括在计算、存储等多个领域,加速都是必然的选择。而要说业内著名的加速公司,我们就必须提到一个名字 —— 英伟达 NVIDIA

机器学习就是最好的加速案例。以往,我们通常用 CPU 进行计算,包括针对机器学习或者深度学习相关的神经网络计算。但很多时候我们发现,在这些计算特别是训练相关的计算中,CPU 的计算效率难以满足需求,更多时候我们需要借助于 GPU 才能实现。以至于发展到后来,GPU 成为深度学习训练的主力,而 CPU 则更多起到辅助作用,无论是 x86 还是 Arm 架构都是如此。

点存科技CEO李浩天

 

“CPU 像是总工,善于处理各种复杂问题,像结构概念设计、体系布置等等,都要由总工程师决定,但是精力有限;GPU 更像是一群助理工程师,他们只会进行简单的结构计算、画图等,但是人数众多,可以很快完成建模、画图等工作”,点存科技 CEO 李浩天介绍说。

作为一家专注于分布式存储和边缘计算底层技术的软硬件研发型科技企业,点存科技的核心业务包括了分布式存储、区块链、零知识证明等多个领域,并致力于为边缘计算生态提供专业设备和技术支持。换句话说,加速就是点存科技的核心竞争力之一,也正因为如此,李浩天对于 NVIDIA 的解决方案也是非常熟悉,甚至达到了如数家珍的程度。

“许多影视公司和大学的AI训练的项目只在某一个时间段需要大量的计算资源。针对这类高速发展的高强度并行运算的需求,自建计算资源的成本是巨大的,因此我们发现可以通过将闲置的计算资源形成分布式的资源池提供给市场按需使用,按量付费”,李浩天表示。正是看到了 GPU 加速的广阔应用市场,点存科技将分布式 GPU Cloud 计算作为自己的主营业务之一,并面向整个市场开放。

 

这也恰恰符合了 NVIDIA 在深度学习领域的定位,同时迎合了当下智能化的风潮。应该说,自从 2015 年人工智能的第三次大潮来临之后,GPU 计算就已经与深度学习紧密的结合在一起,而类似李浩天这样提供 GPU 云计算的公司也不在少数,包括大名鼎鼎的阿里云腾讯云在内的许多云计算巨头也参与其中。

但是点存科技能够在这一领域脱颖而出,凭借的就是自身强大的技术实力。在李浩天看来,点存科技不仅仅采用的是 GPU 加速,更重要的是结合自身特点提供了 “零知识证明” 技术,可以预先对所需数据进行隐私处理,也就最大限度的保障了客户数据的安全。

正如刚刚提到的,许多高校或者科研机构对于 GPU 计算有着巨大的需求,那是因为这些单位本身需要进行科学研究,而点存科技所提供的技术恰恰能够保证科研的保密性。如此一来,在不暴露客户原始数据的情况下就可以进行数据计算和存储,这也是区别于其他 GPU 云平台的显著特征。“我们更像是数据快递员,只搬运,不拆箱”,李浩天笑着说。

就这样,凭借着出色的数据保障能力,点存科技的 GPU 云平台覆盖范围也越来越广 。可以说,凡是有这种间歇性、高峰值计算需求的应用,或者大量并行级计算需求的应用,都可以适配点存科技的解决方案。而为了提升服务能力,点存科技也在硬件、软件、网络等多个方面进行优化。尤其是在网络方面,结合与英伟达多年来的合作实践经验,点存科技的数据中心采用了基于 NVIDIA SN 系列白盒以太网交换构造的三层五级 CLOS 架构,IP Fabric 形式组网,并使用基于 EVPN-VxLAN 提供的业务层服务。方案采用了现代数据中心的典型架构,在规划和部署上应用了大量的基于最佳实践的优化技术。

 

许多人可能觉得网络对于性能的提升微乎其微,但恰恰相反的是,无论建设何种规模的数据中心,网络都是需要解决的第一要务,甚至包括 BAT 这样互联网的巨头在选择数据中心的时候都要尽可能贴近运营商的主干网,而在自身假设中也需要借助于高带宽、低延迟的网络解决方案实现横向扩展,这样才能保证业务在高并发的峰值期也能够有流畅的访问体验,才能将计算、存储等资源的能力发挥到最大。

比如对于点存科技来说,它所采用的就是基于英伟达网络产品事业部基于Spectrum 交换芯片的以太网交换产品。这款产品具备强大的、非常高的转发性能,同时有非常独到的特性,能够帮助用户进行自动化组网,具有精确和细粒度的遥测功能,减轻运维的压力,最终提升整个网络的可靠性。同时本着开放的理念,点存科技也可以在平台上层搭建的时候自助选择闭源的收费产品或者开源的 NOS,真正做到业务可控。

也正是这种开放的选择空间和良好的合作氛围,让点存科技与 NVIDIA 之前形成了亲密的关系,并且在业务部署层面实现了良好的互动。据 NVIDIA 网络事业部以太网产品总监王栋介绍,最初点存科技打算选择成本较低的 10G/40G 网络,这样在初期投入上成本可控;但是考虑到未来的用户扩容和升级需求,NVIDIA 还是建议点存应该考虑更主流、生态更为完善的 25G/100G 的网络。最终,在双方友好的沟通与诚恳讨论下,点存科技选择了后者,也才有了如今在网络上的游刃有余。

NVIDIA 网络的另一大优势则是 RDMA。这个技术的全称是 Remote Direct Memory Access,即远程直接数据存取。相对于传统的数据传输模式来说 RDMA 可以通过网络把资料直接传入计算机的存储区,将数据从一个系统快速移动到远程系统存储器中,而不对操作系统造成任何影响,换句话说,RDMA 实现了数据的网络智能传输,将原本需要依赖 CPU、内存等多部件协同的工作简单化,只通过网卡就可以轻松实现,这样无疑大大降低了系统占用率,提升了计算能力。

 
 

这样一来,也就帮助点存科技实现了 “大带宽,低延时,无堵塞,无损网络” 的需求,NVIDIA 也成为了业内唯一能够实现这一需求的公司。李浩天表示,点存科技与 NVIDIA 已经实现了多个层面的合作,“从算力、应用一直到底层基础设施”都是如此。而在 NVIDIA 看来,点存科技也是良好的合作伙伴,从 GPU 计算到网络加速,点存的案例也很具备代表性,具备 “在行业内推广” 的价值。

在谈到未来的时候,李浩天认为目前双方的合作只是开始,在看到了合作带来的巨大提升和潜力之后,他也认为未来应该在两大层面加强合作关系 —— 首先,基于分布式存储方向,基于英伟达 GPU 硬件特性,点存可以打造超高性能的 NVMe 的分布式存储平台;第二,AI 计算方向,点存可以和英伟达合作,基于英伟达的产品,打造一个高性价比的 AI 综合训练推理平台。

正如在采访最后,李浩天所提到的:“接下来我们会在大规模的计算中心和先进的网络架构上和英伟达有更多的合作。相信结合 NVIDIA 在高性能网络、应用加速和计算方面的优势,以及点存科技在软件开发及系统能力、数据中心运营能力和业务拓展能力等多方面的特色,能够共同为终端客户提供更加优质、高效的解决方案,开拓更多的业务”。

相关新闻