首页 > 最新资讯 > 生命本源探秘:AI模型读取蛋白质,助力对抗COVID-19
生命本源探秘:AI模型读取蛋白质,助力对抗COVID-19

生命本源探秘:AI模型读取蛋白质,助力对抗COVID-19

2020-07-25 17:56

#人工智能 #深度学习


研究人员基于自然语言处理,进一步提升了新型生物学工具的准确性。

Ahmed Elnaggar和Michael Heinzinger致力于帮助计算机轻松地读取蛋白质,就像此刻你阅读这句话一样简单。

他们将用于理解文本的最新AI模型应用于生物信息学领域。此举有望加速生物体(例如冠状病毒)表征相关的研究工作进程。

他们的目标是在年底前建立一个网站。届时,当研究人员在该网站输入描述某种蛋白质的氨基酸序列后,几秒钟内即可获取该蛋白质3D结构的详情。这些信息是了解如何用药的关键。

当前,研究人员通常需要搜索数据库获取此类信息。但随着被测序蛋白质数量的增加,数据库日益庞大。因此,采用这种方法搜索耗费的时间要比借助AI高出100倍之多,具体取决于蛋白质氨基酸序列的大小。

当遇到前所未见的特定蛋白质时,数据库搜索便无法提供任何有用的结果,但AI却可以。

计算生物学和生物信息学在读博士生Heinzinger表示:“与COVID-19相关的14种蛋白质中,有12种与已知蛋白质相似。其余两种我们却知之甚少。在这种情况下,借助于AI的方式就会派上大用场。”

基于数据库搜索的方式虽然很耗时,但其准确性比早期采用AI的方法高出了7%至8%。如今,采用最新的模型和数据集,可将与数据库搜索方式间的准确性差距缩小一半,为日后AI的应用铺平了道路。

AI模型和GPU助力深入探究生物学的奥秘

Heinzinger表示:“在准确度方面,AI算法的改进速度非常快,使得准确度得以提高。同时,在数据集方面,计算生物学领域的增长比其他任何领域都要迅速。由此,我相信我们很快就会迎来新的突破。”

专注于迁移学习领域的AI专家Elnaggar博士表示:“这项工作在两年前还是不可能完成的任务。如今,这些成果都要归功于大量生物信息学数据、全新AI算法、以及NVIDIA GPU的算力。”

Elnaggar和Heinzinger都是慕尼黑工业大学Rostlab实验室的成员,该实验室团队引领了AI与生物学的跨学科研究。实验室负责人Burkhard Rost于1993年撰写了一篇具有开创性意义的论文,为研究指明了方向。

蛋白质读取的语义学

背后的原理很简单。蛋白质是生命的基本组成部分,由氨基酸序列构成。在读取蛋白质时,需要按顺序对氨基酸序列进行解读,就像阅读句子中的单词一样。

因此,Rost等研究人员开始在研究中结合自然语言处理技术,以此了解蛋白质。但是,在九十年代,关于蛋白质的数据很少,AI模型也远不够精细。

科技快速发展至今,已大不同于从前。

如今,测序变得更快速且成本更低,从而产生了海量数据集。同时,得益于现代GPU,在某些情况下,诸如BERT之类的高级AI模型能够比人类更好地解读语言。

AI模型复杂性增长6倍

AI模型在自然语言处理方面的突破令人叹为观止。18个月前,Elnaggar和Heinzinger发表了一份研究成果,研究中使用了一版包含9,000万参数的循环神经网络模型。本月,他们又在研究中利用了具有5.67亿参数的Transformer模型。

“Transformer模型对算力的要求极高。因此,为了完成这项研究工作,我们在Summit超级计算机上使用了5,616个GPU。即便如此,部分模型的训练也耗时两日之久。” Elnaggar表示。

而要在数千个Summit节点上运行模型,就更具挑战。

Elnaggar的这些经历在超算领域不足为奇。他需要很有耐心,才能同步管理如此大规模的文件、存储、通信、以及相关的开销。他从小规模项目着手,基于几个节点展开工作,一步步前行。


一分耕耘,一分收获。他基于Summit超级计算机上的数千个GPU,实现了更大规模的复杂AI算法。

Elnaggar表示:“好消息是,我们现在可以基于单一GPU,使用训练后的模型,在实验室中完成推理工作。”

预训练AI模型现已面世

Elnaggar和Heinzinger最新的论文于7月发表。该论文描述了在各种工作任务下,应用几种最新AI模型的优缺点。这项研究工作得到了COVID-19高性能计算联盟的资助。

他们还发布了首版预训练模型。Elnaggar表示:“鉴于当下疫情,尽管项目仍在进展中,但我们觉得应尽早发布。”

Heinzinger 认为:“我们提出的方法有望改变蛋白质测序的方式。”

这项研究工作本身,可能并不能遏制冠状病毒,但却有望建立一个更高效的全新研究平台,助力未来抗击病毒的工作。

跨学科合作

该项目也展现了科学领域两条重要的经验,即需要密切关注最新研究进展,并分享研究成果。

“正所谓择善而从,以往鉴来。我们的研究进展正是得益于自然语言处理技术的进步。” Heinzinger表示。

Elnaggar对此也表示赞同:“正是通过跨学科合作,我们才能取得成功。”

相关新闻