SC21 | 多所大学采用 NVIDIA 系统和网络拓展研究工作
2021-11-19 15:01
#人工智能 #深度学习 #GTC21 分享到微信 分享到微博
美国南方卫理公会大学使用 NVIDIA DGX SuperPOD 推动德克萨斯州北部地区进入 AI 时代;密西西比州立大学和德克萨斯农工大学准备使用 NVIDIA Quantum-2 网络;英国的一所大学则升级了其 InfiniBand 网络。
正如达拉斯/沃斯堡机场已成为全美旅行枢纽一样,南方卫理公会大学(SMU)将助力德克萨斯州北部地区在 AI 行业发展中处于领先地位。
南方卫理公会大学正在安装一台 NVIDIA DGX SuperPOD 超级计算机。该大学希望这台超级计算机为这个拥有 12000 多名学生和 2400 名教职员工的庞大社区推动机器学习项目的发展。
除了该大学之外,美国中南部还有两所大学也宣布计划使用 NVIDIA 技术以推动研究高速发展。
德克萨斯农工大学和密西西比州立大学均计划使用 NVIDIA 的 400 Gbit/s InfiniBand 网络平台,NVIDIA Quantum-2 将作为其最新高性能计算机的主干网。此外,英国的一台超级计算机刚刚升级了其 InfiniBand 网络。
德克萨斯州喜获 SuperPOD
提到今年早期在佛罗里达大学安装的另一个系统时,南方卫理公会大学首席信息官 Michael Hites 表示:“我们是美国第二所获得 DGX SuperPOD 系统的大学,它将助力本社区在使用 AI 技术推动学位课程,以及校企合作方面,均处于领先地位。”
9 月,一篇报导称,达拉斯地区因缺乏主要的 AI 研究而 “步履蹒跚”。巧合的是,报导登上当地报纸之时,也正是南方卫理公会大学敲定其 DGX SuperPOD 计划之日。
南方卫理公会大学在 3 月的一份计划预览报告中表示,AI 是 “数字化转型的核心……没有任何社会部门能够不受该技术的影响。AI 对 K-12 教育行业和劳动力发展具有巨大的改善潜力,这将有助于该地区经济的持续增长。”
一项 15 亿美元的筹款活动 —— SMU Ignite —— 于 9 月正式启动。SMU Ignite 将推动 AI 倡议,帮助南方卫理公会大学迈入全国顶级研究型大学的行列。该大学正在聘请一位首席创新官来协助指导此项工作。
打造一个计算炼金炉
南方卫理公会大学研究者 IT 支持团队主管 Jason Warner 表示,这项工作的核心是人才。因此,他为南方卫理公会大学福特研究与创新中心的一个新中心聘请了一批具有重大影响力的数据科学专家。Warner 将这座新中心称为南方卫理公会大学的 “计算炼金炉”。
这支团队由 Eric Godat 领导,他在南方卫理公会大学使用大型强子对撞机的数据为核结构建模,并因此获得了粒子物理学博士学位。
而今,他正协助南方卫理公会大学的学生了解 DGX SuperPOD 所带来的新机会。第一步,他邀请两名南方卫理公会大学的学生使用 NVIDIA Jetson 模块建造一个 DGX SuperPOD 的微型模型。
Godat 表示:“我们想让大家感受一下未来的工作会是什么样子的,尤其是那些没有做过 AI 方面工作的非技术领域人员。”
南方卫理公会大学本科生 Connor Ozenne 协助建立了一个微型 DGX SuperPOD,南方卫理公会大学年度报告中对其进行了介绍。这台微型系统由 16 个 Jetson 模块组成,学生们将把它看作一个 TOP500 系统来运行 benchmark 测试
这台全尺寸超级计算机由建立在 NVIDIA Quantum InfiniBand 网络上的 20 个 NVIDIA DGX A100 系统组成。凭借其积木式的模块化结构,这台超级计算机最早可以在 1 月启动和运行。它将提供高达 100PFlops 的计算力,足以使其在全球最快超级计算机榜单 TOP500 上位居前列。
德克萨斯农工大学为其 ACES
使用 NVIDIA Quantum-2 InfiniBand 技术
位于南面约 200 英里的德克萨斯农工大学高性能计算中心,将成为首批接入 NVIDIA Quantum-2 InfiniBand 平台的机构之一。其 ACES 超级计算机由戴尔科技建造,将使用 400G InfiniBand 网络为研究者连接来自四家厂商的五个加速器。
NVIDIA Quantum-2 确保 “在 ACES 上单项工作即可以扩展到所有计算核和加速器。除了在吞吐量上比 NVIDIA Quantum-1 InfiniBand 的 200G 翻倍之外,它还具有更低的总拥有成本、更强大的网络计算功能和更高的扩展性 ”,ACES 首席研究员兼项目总监 Honggao Liu 表示。
德克萨斯农工大学已经为研究者提供了四套加速计算系统,这四套系统包含 600 多个 NVIDIA A100 Tensor Core 和上一代 GPU,其中两个系统使用了较早版本的 NVIDIA InfiniBand 技术。
密西西比州立大学也将使用 NVIDIA Quantum-2 InfiniBand 平台。它是构建 Orion 新系统的首选网络,Orion 是密西西比州立大学管理的四个集群中最大的一个集群,这四个集群全部使用较早版本的 InfiniBand 网络所构建。
Orion 和新系统均由美国国家海洋和大气管理局 (NOAA) 所资助,由戴尔科技建造。Orion 和新系统将承担 NOAA 的工作任务,以及密西西比州立大学的各项研究课题。
Orion 在 2019 年 6 月首次登上 TOP500 榜单,并被列为美国第四大学术超级计算机。
密西西比州立大学高性能计算总监 Trey Breckenridge 表示:“我们在密西西比州立大学的四代超级计算机中都使用了 InfiniBand,所以我们知道它既强大又成熟,可以可靠地运行我们需要的大型工作。”
他补充道:“我们正在添加一套使用 NVIDIA Quantum-2 的新系统,以保持在高性能计算领域的领先优势。”
在大洋彼岸的英国,莱斯特大学的数据密集型超级计算机 —— DIaL 系统 —— 已经升级到 200G 版本的 NVIDIA Quantum InfiniBand。
莱斯特大学理论天体物理学教授兼高性能计算中心总监 Mark Wilkinson 表示:“ DIaL专为解决复杂的数据密集型问题而设计,我们需要解决这些问题,才能推进对周围宇宙的理解。”
“这些专业应用对带宽和延迟的要求都是前所未有的,只有 InfiniBand 能够满足要求,使研究工作有效开展。”
DIaL 是英国 DiRAC 设施中使用 InfiniBand 的四台超级计算机之一,另外还包括爱丁堡大学的 Tursa 系统。
InfiniBand 在技术评估上表现出色
在一次技术评估中,研究人员发现与使用另一种互连方式的纯 CPU 系统 Tesseract 相比,在由 Quantum 网络和 NVIDIA GPU 加速器构建的 Tursa 系统上运行应用性能可达 5 倍提升。
基准应用测试显示,Tursa 系统上 16 个节点的性能是 Tesseract 系统上 512 个节点性能的两倍。Tursa 系统的每个节点提供 10 TFlops 计算性能,使用 90% 的网络带宽,每千瓦性能相比 Tesseract 有显著的提高。
这也说明了为什么世界上大多数 TOP500 系统都在使用 NVIDIA 的技术。