NVIDIA A100 加速医学图像处理深度学习研究
2022-05-11 19:56
上海市磁共振重点实验室(Shanghai Key Laboratory of Magnetic Resonance)是从属于华东师范大学的省部级重点实验室,是国内核磁共振研究和人才培养的主要基地之一。多年来,坚持自己在磁振物理学上的专业特色,逐渐形成了应用研究与技术研发并重,磁共振波谱与磁共振成像兼顾的局面,并先后建立了“上海市磁共振成像技术平台和上海市核磁共振波谱技术服务平台”两个开放平台,进一步强化了实验室的开放服务功能。
目前该实验室已与上海市范围内十几家重点医院展开科研合作,对高效的大数据的医学图像处理有着急切的需求。此次借助 NVIDIA A100 GPU 和自身庞大的计算能力,构建出了高效稳定的科研硬件平台,用于医学图像的各种后处理任务和深度学习相关任务。
不同于二维自然图像,医学图像往往单个数据数据量较大,对于网络传输带宽及 GPU 显存都提出了新的挑战。并且由于科研课题较大、研究内容跨度较大和研究人员较多等因素。深度学习的硬件平台效率成为了科研工作效率的瓶颈。如何在有限的预算内完成深度学习平台的构建成为了新的挑战。
跨节点使用性能不高,需要优化网络环境,目前实验室仅使用了一根 1GB 带宽网线连接公用存储服务器,在大型训练任务中数据传输速度低成为深度学习任务的瓶颈。
基于以上挑战,作为解决方案的第一步,上海市磁共振重点实验室使用了 NVIDIA A100 GPU 加速器,将深度学习训练、推理和分析整合至一个易于部署的统一 AI 基础架构中,通过大显存方法减少 IO 速度带来的影响。
目前,实验室包括 A100 计算服务器总计拥有 7 个计算服务器(计算节点),每台服务器拥有 4 块 A100 GPU 加速器用于深度学习,每台服务器共享同一个存储服务器。所有用户通过 Active Directory 账户共享计算及存储服务器。
并且为了进一步整合当前实验室中 NVIDIA GPU 服务器资源,实验室开发了面向临床及科研的医学图像 AI 开发开源平台“Strix”。该平台基于 NVIDIA 团队的 MONAI 医学图像 AI 处理库开发。整合了医学图像 AI 开发中涉及的数据准备,数据预处理,多种任务框架,结果可视化等步骤。让医学图像 AI 开发可以更为简单易于上手。针对不同架构的 GPU, Strix 也做了针对性的优化。例如 A100 GPU 的 MIG 虚拟 GPU 技术,我们提供了虚拟 GPU 交互式选择,实现让用户更轻松的选择目标 GPU 进行训练。
面向临床及科研的医学图像 AI 开发平台 Strix
通过 NVIDIA A100 GPU 的 MIG 技术,在小团队的工作环境中有较高的自由度,在计算资源较为紧缺的情况下,可以增加可用用户数。在显存资源较为紧缺的情况下,可以减少用户数增加单个显存容量。
更大的显存可以运行需要更大显存的深度学习任务,让许多从前无法实现的科研课题在新的 GPU 上成为可能。同时最新的 Ampere 架构支持了半精度运算,搭配 NVIDIA 的自动混合精度(Automatic Mixed Precision)技术,在节省运行显存开销的同时,加速神经网络训练速度。带来了更快的网络训练及推理效率。
上海市磁共振重点实验室表示,“作为以医学图像处理为重点的课题组,通过与 NVIDIA 的紧密合作,我们将更高效地利用前沿 AI 技术及医学图像技术,解决医疗行业的高价值问题,专注在更智能更高效更安全的未来医疗的新技术。”
本案例中 NVIDIA 精英级合作伙伴信弘智能助力上海市磁共振重点实验室部署了高效的科研硬件平台。