当前位置:金融周刊 >> IT科技 >> 文章正文
准确预测蛋白质结构的Al会不会毁了结构生物学家的饭碗?
pixabay.com
2020年11月30日,谷歌子公司DeepMind开发的人工智能系统AlphaFold在第14届国际蛋白质结构预测大赛(CASP)中获得一等奖。
同日,DeepMind在官网发布新闻稿,称AlphaFold系统成为业界专家公认的解决困扰生物界50年的“蛋白质折叠”问题的解决方案;自然新闻的标题是“它将改变一切”,指出DeepMind在解决蛋白质结构问题上迈出了一大步。
这些激动人心的表情让网友惊呼:如果机器预测蛋白质结构这么准确,结构生物学家的饭碗会被机器拿走吗?
撰文 | 戴 威
责编 | 陈晓雪
AlphaFold预测该结构将获得冠军并再次成名
了解一个新的蛋白质结构有两种方法,一种是通过实验“看”,另一种是通过计算机根据氨基酸序列“计算”。
可以说AlphaFold是目前“计算”道路上的冠军。
CASP计算蛋白质结构预测竞赛成立于1994年,现已成为评估预测技术的金标准和该领域新技术交流的国际平台。比赛由全球距离测试(GDT)评分,满分为100分。分数越高,每个氨基酸残基(蛋白质链上的球)越接近实验测得的正确位置。比赛中使用的所有蛋白质都是新解决的未发表的研究。
在自由建模中,AlphaFold的模型与实验数据高度一致。蓝色是计算和预测,绿色是实验结果。来源:deepmind.com
在今年的CASP比赛中,主办方在5月至8月发布了氨基酸序列,从5月至9月中旬可以有数百支参赛队伍提交模型。
最终DeepMind的AlphaFold系统中值高分92.4GDT,在困难自由建模环节中达到中值87,比第二名高25分。
约翰穆特教授是马里兰大学的教授,也是竞赛的创始人之一,他认为90 GDT的分数可以被认为是与实验方法获得的结果相竞争。
“这绝对是一个惊人的突破。单个超大分子量的蛋白质很难在体外表达,更不用说更大的复合物,因此获得高质量的样品进行结构分析具有挑战性,并且耗时、费力、成本高。能够使用准确预测的结构进行分析对于相应的研究具有重要意义。”清华大学生命科学学院的研究员李赛称赞了AlphaFold的成就。结构生物学家李赛专注于用低温电子显微镜分析生物样品,而清华大学拥有世界级的低温电子显微镜平台。
AlphaFold的预测效果好到和实验结果只有微小的差别,甚至怀疑这种差别是不是因为实验结果的不精确。“与实验方法相比,有时说分辨率那么高,有时不知道这个误差是来自对结构的预测,还是来自实验方法分辨率的限制。所以这个消息很振奋人心。”李赛告诉《知识分子》。
蛋白质由长氨基酸链组成,但仅有正确的氨基酸是不够的。这些链必须扭曲成特定的三维结构,蛋白质才能发挥活性。这个物理过程叫做蛋白质折叠。氨基酸链未折叠或错误的蛋白质不能正常发挥生理功能。因此,探索蛋白质的结构对研究其功能非常重要。
1972年,美国生物化学家克里斯蒂安伯默尔安芬森提出了氨基酸序列可以完全决定蛋白质结构的假说。而氨基酸序列折叠的可能性是上亿,仅靠氨基酸序列无法获得完整的蛋白质结构。因此,在过去的几十年里,计算和预测只是实验手段的辅助。
分析蛋白质结构常用的实验方法有三种:核磁共振、X射线结晶学和冷冻电镜。
到目前为止,大约有170,000个蛋白质已经被实验破解,并上传到蛋白质数据库(PDB)进行公开披露。
随着海量序列和结构数据的积累,预测结构不再是根据氨基酸序列“空”,而是有了学习的基础。DeepMind使用170,000个已发布的蛋白质序列和结构数据以及已知序列但未知结构的蛋白质数据库来训练Alphafold。
2018年,DeepMind推出AlphaFold1参加第13届CASP竞赛。今年的系统是AlphaFold2的新版本,使用大约128个TPUv3内核(相当于100-200个GPU)进行几周的计算,功能更强大。
与上一代AlphaFold相比,新版本在中值精度方面更进一步。来源:deepmind.com
结构生物学家:阿尔法折叠目前适用于理想环境中的小型结构
李赛说,新闻中AlphaFold建模的对象都是分子量较小的结构,或者是更基本的结构。
从简单到复杂,从低到高分子量,蛋白质结构可分为四个等级。其中,一级结构是指线性氨基酸序列;第二阶段是形成稳定结构的氨基酸链,如卷曲的螺旋和锯齿状的折叠;第三层是由几个二级结构构成的三维结构;四级结构是蛋白质复合体。
目前DeepMind展示的建模模型介于二级结构和三级结构之间。
它可能表现出相对较小的分子量,由几个螺旋或几个折叠组成的二级结构,或一些结构域(超二级结构)和小的蛋白质结构。李赛解释说,蛋白质越大,折叠的不确定性就越大。对于蛋白质中的稳定结构域,二级结构可以通过氨基酸序列来预测。但随着结构规模的“升级”,会出现一些折叠的不确定性。“这些很难预测,甚至实验方法也不能保证测量。
清华大学生命科学院院长王宏伟说:“AlphaFold目前主要预测单链蛋白质或结构域,无法预测大型蛋白质复合物,尤其是包含许多不同成分的生物分子机器的结构。”他解释说,这主要是因为蛋白质和蛋白质之间的相互作用非常复杂,而且有如此多的可能性,以至于即使是冰山一角也只露出了冰山一角。
对于复杂的蛋白质或蛋白质复合物,科学家现在主要通过冷冻电子显微镜进行分析。核磁共振、X射线结晶学、冷冻电镜三种方法中,核物理中最初使用的核磁共振要求最小的分子量(15~25Kd)和最高的生物样品分辨率,在1埃以下;x射线衍射法对样品尺寸(不超过200Kd)和分辨率有中等要求,但样品必须结晶;冷冻电子显微镜的分辨率不如前两者,适合研究单个大的生物分子。然而2013年后,技术革命,分辨率已经达到原子级。
李赛告诉《知识分子》,结构生物学和冷冻电镜的重点仍然是蛋白质的三维结构,包括蛋白质-蛋白质复合物、蛋白质-核酸复合物、糖蛋白等。
除了蛋白质大小和结构复杂性的可能差异,李赛认为人工智能更依赖于理想化的环境来预测蛋白质结构。
理想状态不同于蛋白质的自然状态。
李赛解释说,“结构生物学发展的大趋势是使原位蛋白质结构更加复杂。例如,在病毒中,嵌入膜中的蛋白质和另一种蛋白质之间的关系应该得到解决。除非计算方法能够在一天之内模拟出整个病毒、细菌、细胞,考虑到所有复杂的因素,否则无法接近自然。”
机器预测比实验省时省钱?
从时间上看,实验方法破解一个蛋白质结构并不稀奇。根据研究的紧迫性、样品的可获得性、蛋白质的复杂程度等因素,耗时短至数周数月,长至数年。相比较而言,计算预测更快。毕竟AlphaFold运营培训只需要几个星期,CASP比赛只需要5个月就能完成建模项目。
除了节省时间,还可能省钱。
冷冻电镜、核磁共振和x光衍射三种实验方法检测蛋白质结构的原理和设备不同。冷冻电镜是用电子显微镜观察特殊冷冻后的样品;核磁共振是通过分析原子对能量的吸收来反转物质的成分;X射线衍射法是利用晶体的X射线衍射结果来计算晶体中原子的排列。
硬件成本方面,根据规格型号不同,一台冷冻电镜的设备价格在2000万到6000万元左右,不算运维成本。
核磁共振和结晶学的设备也很贵。李赛杰少说,特别是结晶学中的同步辐射设备,占地面积几平方公里,建设成本上亿。
陈勇,清华大学生命科学学院博士后。博士期间,他在中国科学院生物物理研究所学习晶体学。他说,X射线晶体学设施建设成本可达数百亿,一般由政府牵头,比如国内的上海同步辐射源。这些平台除了服务于生物学,还用于材料科学、物理学等。虽然成本很高,但陈勇解释说,同步辐射设备通常是全球共享的,并不是每个研究单位都必须拥有。
如果用计算机来预测蛋白质结构,硬件“主要是高性能GPU计算平台的投入”。李赛表示,建设一个满足高校规模计算需求的平台需要一千万级左右,每年的维护费用低于实验设施的投资,每年的电费支出为一百万。
陈勇认为,计算机预测蛋白质结构的成本在理论上具有优势。虽然预测需要高性能的计算机,但冷冻电镜也需要高性能的计算,还需要加上前期的设备成本。
机器预测能代替实验吗?
就算算出来的成本比实验好,你还用预测做实验吗?
“AlphaFold确实是一部划时代的作品,因为科学家们在过去的几十年里一直在努力认识它是否可以通过计算来预测。这是计算模拟或预测。实验科学永远是实验科学。不知道计算预测的结果要不要实验科学验证?”陈勇说:“这是个有趣的问题。不知道会不会有重复性的工作。你预测一个,我就得去验证?”
预测对结构生物学研究并不陌生,一直是实验科学的辅助。
李赛告诉《知识分子》,在AlphaFold之前很多年就有一些预测蛋白质结构的算法。“密歇根大学的张洋实验室在这方面处于领先地位。我们有时会用他们的服务器来预测一些结构,供电子显微镜结构参考。”至于预测和实验的结果,有时候是一样的,但很多时候是不一样的。
但是,对于从零开始的研究,预测可以帮助实验科学找到思路。陈勇说,有很多未知的蛋白质结构。在前期没有任何参考的情况下,“可以通过序列计算出一个模型,然后实验科学才得到一个蛋白质结构的电子密度,所以分辨率没有那么高。在这种情况下,它可能会帮助我们从头开始建模,并构建一个原子模型。”
对于AlphaFold这样精度很高的算法,“我觉得这是一个非常好的东西,非常强大,”陈勇说。预测可以辅助建模,在做表达式的时候帮助做一些优化和变换。"这可能会加快实验科学的步伐."
实验得益于预测,预测的算法是基于实验科学的结果。
也许蛋白质折叠有一些可靠的规律,但是生理因素太多,不能参考。实验科学仍在探索冰山一角。基于实验的算法能否形成理论闭环?
“完全基于物理和化学第一原理的结构预测尚未出现。实验科学永远是探索未知的必要手段。”王宏伟指出。精确预测蛋白质结构的AlphaFold系统的算法不是凭空建立的,而是来自于对17万个实验确定的蛋白质结构和序列的学习。
所有实验蛋白质结构将被上传到PDB数据库与数字。“本周发布的晶体结构数量超过200个,电子显微镜(通过实验获得)数量约为50个。”陈勇说。此外,数据库中约10~15%的结果来自核磁共振。
全球共享蛋白质结构档案——PDB成立于1971年,每周二都在不知疲倦地更新。截至2020年12月2日,共收集到171,916个蛋白质结构。
但是更多的蛋白质结构仍然未知。
“预测这些蛋白质的结构非常重要,预测的结构也有助于通过实验分析未知的蛋白质结构。”李赛说。
DeepMind说,在未确定的蛋白质中,可能有一些令人兴奋的新功能,像AlphaFold这样的技术可能帮助我们找到它们——,就像望远镜帮助我们看到未知宇宙的更深处一样。
探索更多未知结构,大概是AlphaFold和结构生物学家的共识。
参考文献:
[1]使用Deep的高精度蛋白质结构预测。学习https://deep mind.com/blog/article/alpha fold-a-solution-to-a-50岁-grand-challenge-in-biology
[2]“它将改变一切”: DeepMind的人工智能在解决蛋白质structures.https://www.nature.com/articles/d41586-020-03348-4?从=timelineisappinstalled=0
[3]RCSBPDB。https://www.rcsb.org/#Category-analyze
[4]https://www . instrument.com.cn/news/20200713/553750 . shtml

