探索基因的秘密:初创公司借助GPU加快DNA分析速度
2018-10-15 12:27
只要一份唾液样本,任何人都可以通过基因检测机构获取基因解读报告。但研究或临床所用的DNA需要了解整个基因组,也就是需要对我们染色体内的全部30亿个碱基对进行测序和处理。
从2003年首次测序的10亿美元费用降低为现在的1000美元以下,完成测序任务所需的成本一直在显著下降。然而,测序只是处理过程的第一部分。基因组研究真正的瓶颈在于测序之后的计算分析,即检测基因组数据中的重要指标和异常值(亦称为“变异”)。
Parabricks是一家位于美国密歇根州安阿伯市(Ann Arbor)的初创公司,也是NVIDIA初创加速计划成员,他们将计算分析花费的时间从几天锐减为一个小时以内。Parabricks 总裁 Dave Gregorka 表示:“这是首次在GPU上实现基因组数据二次分析的应用,而且其完全符合最先进的分析流程。”
这种速度提升将使研究人员能够更加高效地分析整个人类基因组数据,从而为个性化医疗、药物研发和疾病治疗领域带来诸多好处。对于情况危急的病患而言,基因组分析可以帮助医生快速诊断和制定治疗方案,将可能扭转危急病情的局面。
Parabricks联合创始人兼技术总监Ankit Sethia表示:“分析速度大幅提升,我们得以更快地发现真正的问题并制定合适的解决方案。”
计算速度需求猛增
对整个基因组进行测序和分析的需求迅速增长。Sethia表示,生成的基因组数据量几乎每年翻一番。每个人的基因组样本产生的数据量大约为300千兆字节,因此计算需求猛增。
他表示:“如果要分析数万位病患,数万份样本,那么使用基于CPU的处理需要数年的时间才能完成。”
Parabricks团队开发出了在GPU上运行的软件来加快基因组的分析速度。它可以识别数据中的突变和变异,帮助医学专家从基因上了解病患并确定治疗方法。
仅在一台NVIDIA DGX-1服务器上运行,Parabricks的软件每年便可处理超过12000个完整的基因组,同样的工作量则需要40台CPU服务器才能完成。借助 AWS、Azure或Google Cloud,Parabricks还可以在云中的GPU上运行其软件。
对于GPU而言,处理基因组数据与处理图像大同小异。
GPU的并行处理能力非常适合图形,因为每个像素可独立处理和计算。Sethia表示,基因组数据也是如此。DNA测序仪提供的数据由微小的单个基因组信息块组成,可分别进行处理,然后再串连在一起。
与当前一流的解决方案相比,其他快速的基因组分析解决方案精确度更低。Parabricks采用最新的算法,并且可以轻松更新软件或者针对用户进行定制。该公司利用NVIDIA CUDA(包括cuDNN深度学习库以及TensorRT推理软件)进行基因组分析。
Parabricks今年3月向特定客户推出了最初版本的GenomeBricks软件套件,现在全球包括新加坡、日本和泰国等地区都在使用。此外,该公司还正在从事包括国家精准医疗计划等大型的人口研究项目。