首页 > 最新资讯 > 数字生物学革命在HPC和AI的推动下不断前进
数字生物学革命在HPC和AI的推动下不断前进

数字生物学革命在HPC和AI的推动下不断前进

2021-09-01 09:56

#人工智能 #深度学习


 
科学家和医疗研究人员曾受湿式实验室中的研究样本数量以及在观察细胞时被显微镜质量所限制。现在,他们正在使用强大的计算工具从不断扩展的生物数据库中获取洞见。
 
支持这场数字生物学革命的正是高性能计算系统与特定领域软件框架这对组合。
 
在近期公布的TOP500全球性能最强大的系统榜单上,我们看到了两台超级计算机的身影:专注于医疗行业的NVIDIA Cambridge-1和生物技术公司Recursion的BioHive-1。这两台超级计算机均基于NVIDIA DGX SuperPOD参考架构
 
全球各医学研究机构、制药公司和生物技术初创企业都在使用NVIDIA Clara Parabricks(一套基因组学库和参考应用)来推动新一代测序工作。
 
位于上海的明码生物技术公司成为中国第一家启用Clara Parabricks Pipelines支持精准医疗工作的研究实验室。这是继今年在泰国和日本启动的大型基因组学举措之后的又一项举措。而基因治疗初创企业Greffex最近使用Parabricks Pipelines来加速其通用流感疫苗项目的开发。
 

能够用于人口研究的基因组学洞见

 
Parabricks PipelinesNVIDIA GPU上将DNA和RNA类项目的速度提高了50倍,这使科学家能够从每天生成的数百兆字节仪器数据中提取尽可能多的有用信息。开展人口研究的公共卫生机构和研究实验室由于需要分析数以万计的基因组,因此尤其需要这种加速。
 
明码生物技术公司采用Parabricks PipelinesNVIDIA T4 Tensor Core GPU来加速其测序和多组学数据分析工作。该公司为医疗机构、制药公司和研究人员提供用于疾病研究和药物开发的基因组洞见。
 
泰国国家生物库中的NVIDIA DGX A100 系统正在驱动泰国基因组学研究。这项举措旨在将基因组医学作为该国的一项常规医疗服务。该研究机构正在使用Parabricks Pipelines分析5万名泰国志愿者全基因组测序数据中的基因变异。
 
通过组合DGX系统Parabricks Pipelines,该项目的全基因组数据处理时间缩短了四个月。这项工作的成果将帮助研究人员更好地分析泰国人口特有的基因变异。
 
而日本东京大学人类基因组中心最近启用了目前日本生命科学领域最快的超级计算机——SHIROKANE。这台由DGX A100驱动的超级计算机正在运行Parabricks Pipelines对92000名患者的全基因组进行测序,创建了一个为癌症和难治性疾病的精准医疗奠定基础的数据库。
 

 推动临床测序和新药研发

 
Parabricks Pipelines 遗传工具套件可通过配置来满足每个实验室的具体需求。研究人员可在各种NVIDIA GPU系统上运行Parabricks Pipelines工作负载,包括台式工作站、GPU加速云和一些全球最快的超级计算机。
 
位于休斯顿的Greffex开始使用NVIDIA RTX数据科学工作站,现在该公司正在使用Parabricks PipelinesNVIDIA Clara Discovery来推进其通用流感疫苗的开发工作。
 
这家初创企业结合基因组测序、分子动力学工具和湿式实验室研究,对流感菌株如何随时间演变以及这些变异如何影响疫苗的效力开展了研究。
 
为了监测流感变化,Greffex收集了来自世界各地的数万个流感基因组并使用NVIDIA RTX 8000 GPU运行大规模的序列比对,确定了病毒遗传密码的变化之处。通过使用GPU运行基因组工作负载,该公司在每个样本上节省了多达13小时的时间,同时也使其团队能够以不同的参数重新运行样本,从而对排列结果进行微调。
 
Greffex科学家对流感病毒表面的蛋白质——血凝素进行了计算密集型分子动力学模拟,以了解它在自然环境中的表现。
 
一旦确定基因变异,Greffex科学家就会使用分子动力学来观察这些基因变化如何改变流感病毒的物理形状。他们现在正在密切观察流感病毒的多态变异,这种变异可能使流感病毒变形成一种无法与疫苗抗体有效结合的形状。
 
Greffex生物信息学科学家Daniel Preston表示:“如果一种疫苗不仅需要能够与当前的流感病毒株结合,还要能够与多种其他病毒株结合,那么其蛋白质结构的优化将是一个非常漫长且昂贵的过程。现在,我们可以通过计算方法在实际的实验室测试之前了解什么可能会起到作用,这与过去的方法有着天壤之别。”
 

关于NVIDIA Clara Parabricks

 
NVIDIA Clara Parabricks为博德研究所的行业标准基因组分析工具包以及谷歌的DeepVariant基因调用器等流行工具带来了GPU加速。ParabricksNVIDIA A100 Tensor Core GPU上运行时,能够将整个人类基因组的二次分析时间缩短到23分钟,从而实现DNA生殖系变异识别。而如果在CPU系统上运行,则需要20多个小时。
 
除了DNA测序解读之外,Clara Parabricks Pipelines还能够对生殖系和体细胞变异检测进行对齐、分类、筛选和变异识别,并且支持RNA类应用。生殖系变异是通过个体祖先遗传的变异,而体细胞变异会在人的一生中发生并且可能引发癌症。
 
Parabricks Pipelines 3.6版本将提供更多用于体细胞变异识别和新生殖系变异识别的工具,前者将为研究人员提供适用于精准肿瘤学的洞见,而后者将为自闭症等复杂疾病的研究提供信息。
 
新生殖系变异识别管道(de novo germline variant calling pipeline)是与华盛顿大学医学院研究人员合作开发的一项技术。该技术将基因组数据的解析时间缩短至一小时以下并能够识别家族史或父母-子女三人组中的新变异。
 
可在NGC 或 AWS Marketplace 上获得用于加速基因组分析的NVIDIA Clara Parabricks Pipelines
(https://ngc.nvidia.com/catalog/containers/nvidia:clara:clara-parabricks)
(https://aws.amazon.com/marketplace/pp/B08YLPYM2D)

相关新闻