首页 > 最新资讯 > NASA借助数据科学工作站将太阳图像分析速度提高150倍
NASA借助数据科学工作站将太阳图像分析速度提高150倍

NASA借助数据科学工作站将太阳图像分析速度提高150倍

2020-07-15 18:57

#人工智能 #深度学习


美国航空航天局(NASA)正在使用Quadro RTX GPU提高数据分析的速度。

NASA的太阳动力学天文台(Solar Dynamics  Obser-vatory)通过收集太阳图像帮助科学家和研究者深入了解各种类型的太阳变化及其对地球生命的影响。

这些数据对于研究者而言价值连城,但由于所收集的图像超过18 PB,因此分析这些信息的难度极大。

借助Quadro RTX驱动的惠普Z系列数据科学工作站,NASA团队可以轻松地对数据进行分类并分析图像,而且速度比CPU快150倍。

NASA所面临的大数据挑战

该天文台收集数据的方式是每1.3秒拍摄一次太阳图像。研究者开发了一种算法,可以消除不良像素等图像中的错误,然后将图像放入每天都在增加的档案中。

该算法非常精确,但由于具有近20 PB的图像,有数十亿像素被误当成错误。因此,NASA团队需要梳理1.5亿个错误文件(总共需要进行约1000亿次单独检测)并寻找一种方法来对良好像素与不良像素进行分类和标记。

使用常规计算几乎不可能完成这项工作。如果使用CPU,则要花费数年时间才能得到结果。即便使用目前可以创建的最佳多线程CPU算法,也要花费大约一年的时间对所有数据进行计算和分析。

NASA戈达德太空飞行中心(Goddard Space Flight Center)的太阳天文学家Raphael Attie表示:“一年时间对科学家来说是不够的,因为我们还要探索和迭代所发现的结果。即便计算需要一年时间,我们仍然需要长达十年的时间才能得到具体的结果。”

为了在更短的时间内得到结果,NASA团队开始研究NVIDIA GPU提供的并行处理功能。

海量数据需要更优解决方案

NASA的超级计算资源受到严格限制。研究者需要提供有关需要多少计算资源以及需要使用多长时间的详细信息。但当团队不确定使用多少计算资源才能使用大量数据进行实验时,就很难提供详细信息。

借助内置两个Quadro RTX 8000 GPU的惠普Z系列数据科学工作站,NASA研究者自己就能获得超级计算资源。他们已开始使用大数据分析技术和NVIDIA的加速计算库来研究该项目,将NVIDIA GPU的性能发挥得淋漓尽致。

该数据科学工作站使该团队在不到一周的时间内就完成了图像分析并获得结果。

NASA主管科研的天体物理学家Michael Kirk表示:“该数据科学工作站给我们的研究带来了巨大的可能性。我们现在可以进行这些以前无法想象的计算,而且速度比我们想象的还要快10-150倍。”

NASA团队运用AI机器学习和数据分析对太阳进行了广泛的研究。他们的大多数数据科学工作流程都基于Python,并使用TensorFlow、Dask、CuPy和其他应用完成繁重的数据处理工作;使用Pandas、RAPIDS和CuDF进行统计研究;并且还会用到各种2D和3D可视化工具。

凭借该数据科学工作站,NASA团队充分发挥GPU的性能增强其分析工作流程,使研究者能够探索和迭代计算并更快获得结果。

NASA团队过滤和分析当前数据之后,就会使用这些信息来分析最初被标记为“良好”的其他像素,确认它们是否真的“良好”,从而对整个数据集进行验证。

工欲善其事,必先利其器

在AI和大数据分析中,如果云环境中的工作流不作出响应,就可能会严重影响项目。从长远来看,此类中断会破坏趋势、工作效率和动力。因此,Attie建议使用本地GPU驱动的工作站或笔记本电脑。此类工作站或笔记本电脑应具有足够的内存来处理部分数据处理工作,方便用户进行模型研究。

Attie认为:“我发现让工作流作出响应的必要条件是让GPU设备能够快速访问输入数据。当无法将数据保存在GPU设备所在机器的本地位置时,由于AI应用通常需要快速访问数据,因此必须有非常快速和灵活的网络。”

Attie和Kirk通过出版物和专业期刊分享项目成果。在研讨会和会议期间,他们将与同事进行讨论,并展示如何使用特定框架或自定义代码获取数据。随着居家办公人数的日益增加,NASA团队也越来越熟悉如何使用远程工具与他人联系并分享最新项目发现。

相关新闻