AI系统可以通过计算链式氨基酸预测蛋白质功能

2019年03月25日 由 深深深海 发表 343225 0
麻省理工学院CSAIL的科学家们在一篇学术论文中描述了一个AI系统,该系统可以通过计算链式氨基酸片段预测蛋白质的功能。他们认为它可以用来改进蛋白质工程,即设计具有特定功能的新酶或蛋白质。

该论文的共同作者Tristan Bepler表示,“我希望将结构边缘化,我们想知道蛋白质的作用,知道结构对此非常重要。但是,我们能否预测仅给出其氨基酸序列的蛋白质的功能?这样做的动机是远离特异性预测结构,转向发现氨基酸序列与功能的关系。”

正如Bepler及其同事所解释的那样,蛋白质的行为,包含上述氨基酸链,每个都通过肽键紧密连接,很难用机器学习来预测。数以万计的三维折叠蛋白质形状只有数百万个被记录,氨基酸序列往往具有相似的结构,这使得很难区分新的和重复的结果。



将预测的蛋白质结构直接编码成表示形式。具体来说,他们从蛋白质的开放源码结构分类(SCOP)数据库中,用大约2.2万个标记蛋白质训练了一个AI系统,并为每对蛋白质计算了一个分数,以表明它们在结构上有多接近。

然后,他们为模型提供了随机蛋白质和嵌入(即数学表示),从氨基酸序列中学习预测他们的3D结构可能有多相似。最后,让模型比较两个相似性得分,以确定哪些成对的嵌入共享蛋白质结构,并构建它以同时预测内容图,揭示在蛋白质结构中,每个氨基酸与其他氨基酸之间的距离。

结果如何?一个端到端的系统,给定氨基酸链作为输入,为蛋白质中的每个氨基酸位置产生嵌入,其他模型可以使用该嵌入来预测所述氨基酸的功能。在一项实验中,研究人员训练了一个模型来预测跨膜和非跨膜段,比以前的方法更准确。

Bepler表示,“我们的模型允许我们将已知蛋白质结构的信息传递给结构未知的序列。使用嵌入功能,可以更好地预测功能并实现更有效的数据驱动蛋白质设计,从高层次来说,这种类型的蛋白质工程就是目标。因此,我们的机器学习模型使我们能够从相对较少的已知结构中学习蛋白质折叠的语言。”
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消