大约10年前,吉加·阿夫塞克(Žiga Avsec)是一名物理学博士生,通过一门机器学习的大学课程迅速学习了基因组学知识。他很快进入了一个研究罕见疾病的实验室,开始参与一个旨在确定导致一种异常线粒体疾病的确切基因突变的项目。
阿夫塞克说,这个问题就像是“大海捞针”。在基因密码中,潜在的嫌疑基因突变有数百万个,可能严重影响人体生物学。特别引人关注的是所谓的错义变异:即基因密码中单个字母的变化导致蛋白质中产生不同的氨基酸。氨基酸是蛋白质的构建单元,蛋白质又是身体其他部分的构建单元,因此即使是微小的变化也可能产生较大而深远的影响。
人类基因组中存在着7100万种可能的错义变异,每个人平均携带超过9000种。其中大多数是无害的,但一些已被认为与遗传疾病(如镰刀细胞贫血和囊性纤维化)以及更复杂的疾病(如可能由多个微小基因变化组合引起的2型糖尿病)有关。阿夫塞克开始问他的同事:“我们怎么知道哪些突变实际上是危险的?”回答是:“我们在很大程度上不知道”。
在已经发现的400万个人类错义突变中,只有2%经过多年的繁琐和昂贵的研究被分类为致病性或良性。研究单个错义变异的影响可能需要几个月的时间。
如今,阿夫塞克现在是谷歌DeepMind的一名职员研究科学家,该公司发布了一种可以迅速加速这一过程的工具。AlphaMissense是一个机器学习模型,可以分析错义变异并以90%的准确率预测其引起疾病的可能性,优于现有工具。
AlphaMissense基于AlphaFold构建,后者是DeepMind的开创性模型,可以根据氨基酸组成预测数亿种蛋白质的结构,但其工作方式不同。AlphaMissense不是预测蛋白质的结构,而更像是OpenAI的ChatGPT等大型语言模型。
它经过在人类(和灵长类动物)生物学语言上的训练,因此它知道蛋白质中正常氨基酸序列应该是什么样的。当它面对一个错误的序列时,就像一个句子中的不协调单词一样,它可以注意到这一点。“它是一个语言模型,但是在蛋白质序列上训练的。”与阿夫塞克一起是《科学》杂志今天发表论文的合著作者之一郑俊说。“如果我们在英语句子中替换一个单词,熟悉英语的人立即就能看出这些替换是否会改变句子的意思。”
DeepMind研究副总裁Pushmeet Kohli使用一个食谱书来做类比。如果AlphaFold关心的是成分如何粘合在一起,AlphaMissense则预测如果你完全使用错误的成分会发生什么。
该模型为7100万种可能的错义变异分配了0到1之间的“致病性评分”,根据它对其他密切相关变异效应的了解,得分越高,特定突变引起疾病或与之相关的可能性越大。DeepMind的研究人员与研究英国国家医疗服务体系收集的日益增长的基因数据的政府机构Genomics England合作,验证了模型对已知错义变异的真实研究结果的预测。论文声称AlphaMissense的准确率达到90%,对89%的变异进行了分类。
试图确定特定错义变异是否是某种疾病的研究人员现在可以在表格中查找其预测的致病性评分。希望是,就像AlphaFold推动了从药物发现到癌症治疗的各个领域的发展一样,AlphaMissense将帮助多个领域的研究人员加速对基因变异的研究,从而能够更快地诊断疾病并找到新的治疗方法。“我希望这些预测能够给我们更多关于哪些变异引发疾病的见解,并在基因组学等领域有其他应用。”阿夫塞克说。
研究人员强调,预测结果不应仅单独使用,而应用于指导现实世界的研究:AlphaMissense可以帮助研究人员优先考虑将基因突变与疾病配对的缓慢过程,快速排除不太可能的候选原因。它还可以帮助提高我们对基因密码中被忽视的领域的理解:该模型为每个基因包括了一个“必需性”指标,衡量其对人类生存的重要性。(尽管有很多基因看起来是必需的,但大约五分之一的人类基因的功能尚不明确。)
欧洲分子生物学实验室副总干事,实验室的欧洲生物信息研究所联合主任尤安·伯尼(Ewan Birney)表示,AlphaMissense并不完全属于和AlphaFold一样令人惊叹的范畴。欧洲分子生物学实验室过去曾与DeepMind密切合作,但没有参与此项研究。“一旦AlphaFold问世,每个人都知道应该有可能使用这个框架解释改变蛋白质的突变。”他说。
伯尼认为此项技术在帮助医生快速诊断疑似遗传病的儿童方面有特别的应用。“我们一直都知道错义突变必须对一些未确诊病例负责,而这是一种更好的排位方式。”他举了RPE65基因的例子,该基因会导致失明,除非通过基因疗法注射到视网膜中治疗。AlphaMissense可以帮助医生快速排除患者DNA中的其他潜在基因突变(可能有成千上万个),以确保他们正确进行治疗。
除了解开单个字母变异的影响,AlphaMissense还展示了AI模型在生物学方面的潜力。由于它并不是专门针对解决错义变异问题进行训练的,而是更广泛地训练了生物学中的蛋白质,该模型及其他类似模型的应用可能远远超出单个突变,推动对整个基因组及其表达方式的更好理解——从食谱到整个餐厅。“基本的模型框架来自AlphaFold。”Kohli说。“很多直觉在某种程度上继承自AlphaFold,我们已经能够证明它适用于这种相关但不同的任务。”