DeepMind新成果:AI更快更精确地预测蛋白质结构
2018年12月04日 由 浅浅 发表
302875
0
DeepMind宣布推出AI系统AlphaFold,旨在比现有最先进的解决方案更精确地预测蛋白质结构。它在竞赛中击败了98个竞争对手,成功预测了43种蛋白质中的25种蛋白质的结构,与之相比,第二名只能预测3种蛋白质结构。
构成蛋白质的大分子由氨基酸组成,而氨基酸是构成组织、肌肉、头发、酶、抗体和生物体其他重要组成的基本成分。正是这些基因定义限制了它们的三维结构,而三维结构又决定了它们的能力。
但是,蛋白质折叠(protein folding)是非常困难的,因为DNA只包含氨基酸残基链的信息,而不包含氨基酸残基链的最终形式。事实上,科学家们估计,由于氨基酸之间相互作用的数量无法计算,要想确定一种典型蛋白质的正确结构,需要花费138亿年以上的时间才能弄清其所有可能的结构。
幸运的是,这是一项适合AI的工作。DeepMind本周宣布推出AI系统AlphaFold,旨在比现有最先进的解决方案更精确地预测蛋白质结构。这是为时两年的工作成果,并建立在多年的基因组学研究基础之上。
团队表示,“在过去的五十年中,科学家们已经能够使用冷冻电子显微镜,核磁共振或X射线晶体学等实验技术来确定实验室中蛋白质的形状,但每种方法都依赖于大量的试误,可能需要数年时间,每个结构需要花费数万美元,幸运的是,由于基因测序成本的迅速降低,基因组学领域的数据非常丰富。因此,在过去几年中,依赖于基因组数据的预测问题的深度学习方法变得越来越流行。”
预测结果与地面真值比较
DeepMind团队专注于从头开始建模目标形状的问题,并使用两种方法构建完整蛋白质结构的预测。具体来说,他们的AI系统的深度神经网络能够估计氨基酸对之间的距离,以及连接这些氨基酸的化学键之间的角度。
AlphaFold中的一个神经网络通过重复放置具有新蛋白质片段的蛋白质结构片段来预测蛋白质中氨基酸残基对之间的距离分布。生成模型创建新的碎片,用于不断提高精度。将概率组合成评估建议结构的准确性的分数,单独的神经网络使用所有距离进行评估。
AlphaFold在性能方面轻松地超越了其他解决方案。它在Cancun的结构预测评估(CASP)蛋白质折叠竞赛中击败了98个竞争对手,它成功地预测了43种蛋白质中的25种蛋白质的结构,而第二名只能预测3种蛋白质结构。更重要的是,它在几小时内预测出了第一个蛋白质结构,比以前的系统更快。
DeepMind团队指出,改善科学界对蛋白质折叠的理解,可以更有效地诊断和治疗帕金森氏症和阿尔茨海默氏症等疾病,因为这些被认为是由错误的蛋白质折叠引起的。它还可以帮助蛋白质设计,如帮助分泌蛋白质的细菌,使废水可生物降解,还可以帮助管理塑料和石油等污染物的酶。
研究人员表示,“这些蛋白质折叠进展令人兴奋,这证明了AI在科学发现方面的实用性。尽管在能够对治疗疾病,管理环境等方面产生可量化的影响之前还有很多工作要做,但这项技术潜力巨大。我们的专业团队专注于深入研究机器学习如何推动科学世界的发展,我们期待看到这项技术可以通过多种方式发挥作用。”