首页 > 最新资讯 > NVIDIA DGX Station助力暨南大学AI教学科研提升
NVIDIA DGX Station助力暨南大学AI教学科研提升

NVIDIA DGX Station助力暨南大学AI教学科研提升

2021-01-08 17:04

#人工智能 #深度学习


通过合理分配NVIDIA DGX Station AI超级计算机的算力,配合NGC容器镜像和资源管理,暨南大学信息科学技术学院计算机系实现了深度学习的加速,提升了GPU资源利用率,解决了教学和科研任务的结合、应用、部署等实际问题。

暨南大学信息科学技术学院计算机系师资力量雄厚,拥有一支学科结构合理、富有学术活力的教学科研队伍,形成了信息安全、图像处理与精准测量、分布式系统与存储、人工智能与知识工程等主要特色研究方向。

此前,暨南大学信息科学技术学院计算机系的教学与科研普遍采用单机单卡,不支持多机多GPU分布式并行计算来处理海量数据和计算任务。平时,服务器和GPU会处于闲置状态。对于单个任务或团队来说,也缺少多GPU节点服务器或集群的使用机会和经验。同时,暨南大学信息科学技术学院计算机系的教学与科研实践平台分离,无法简便的地共享资源,造成了资源浪费。此外,在实际的教学和科研中,还存在应用编译难、应用优化难、实验管理难等问题。

软硬件功能双管齐下

提升深度学习模型训练效率

基于此,暨南大学信息科学技术学院计算机系采用了 NVIDIA DGX Station深度学习平台,利用其先进的软、硬件功能对计算性能、效率、算力资源分配等环节进行了优化与提升:

计算性能提升,速度、效率双改善。NVIDIA DGX Station采用了4个NVIDIA V100 GPU,AI性能达到每秒500 teraflops,峰值功耗为1500W,远低于400个 x86 CPU的同等功耗。此外,NVLINK技术可以在NVIDIA DGX Station的GPU之间提供超高带宽(总计200GBps),同时延迟极低,能确保深度学习作业可跨多个GPU进行扩展,并获得优于以标准PCIe总线连接的GPU的线性性能,极大的提升了实际应用性能和人工智能研究效率。

动态任务分配,优化算力资源应用。目前的应用环境拥有多个团队和成员,每个成员可能会在工作组设置下,按照不同的计划同时进行各自的实验。NVIDIA DGX Station提供了游刃有余的解决方案。利用OS自身多用户、多任务管理功能,可将单个或多个GPU指定给某个任务,在任务编排的助力下,可让多个用户同时利用GPU计算能力,提高平台的利用率和整体经济效益。

实现教研平台统一,软件定义高效。NVIDIA DGX系统采用了NGC深度学习堆栈,它具备用于深度学习的单个统一堆栈,并且可以跨平台进行预测执行。需要时,用户可以将深度学习模型无缝传输到位于数据中心的GPU服务器或NVIDIA GPU Cloud中,然后传输回DGX工作站,无需重新编译代码,也不会产生其他软件问题。无需区分硬件型号、操作系统和软件版本,科研和教学和环境也可以做到统一。

此外,NVIDIA DXG系统还使用了docker+NVIDIA-docker2进行软件仓库管理。NGC提供了一个docker容器仓库,包括NGC容器、registry以及平台软件,是 NVIDIA向所有NVIDIA GPU用户提供的免费的、针对深度学习优化过的容器镜像,可以帮助NVIDIA GPU用户快速搭建深度学习环境,并尽可能高效地利用硬件的计算能力。

先进设计,构建友好实验环境。很多传统工作站都采用风冷设计,在系统的部署位置靠近用户的情况下,可能会造成令人不适的运行环境。当单个用户使用多个工作站来运行高性能工作负载时,此问题更加明显。NVIDIA DGX Station采用水冷设计,可以缓解温度问题,并营造出一个更安静、舒适的运行环境。

有效改善教学科研实际问题

NVIDIA DGX Station采用了集成的软硬件解决方案,允许系统在更高的可靠性和可预测性下运行。借助这些功能,非IT人员有效减少了扮演“系统集成工程师”或根据其工作负载需求尝试对系统进行错误排查或微调所花费的时间,从而使得整个系统的IT部署时间和成本大幅降低,风险也更容易控制。暨南大学信息科学技术学院计算机系通过采用NVIDIA DGX系统,实现了计算性能、资源利用、研究效率等方面的明显提升与改善。

相关新闻