新模型提供了一种加速药物研发的方法
2023年06月09日 由 daydream 发表
283356
0
巨大的药物化合物库可能为多种疾病(如癌症或心脏病)提供潜在的治疗方法。理想情况下,科学家们希望对这些化合物中的每一种进行实验测试,以对抗所有可能的靶点,但进行这种筛选非常耗时。
近年来,研究人员已经开始使用计算方法来筛选这些文库,以期加快药物的发现。然而,其中许多方法也需要很长时间,因为大多数方法都是根据氨基酸序列计算每个靶蛋白的三维结构,然后使用这些结构来预测它将与哪些药物分子相互作用。
麻省理工学院和塔夫茨大学的研究人员现在已经设计了一种基于大型语言模型的人工智能算法的替代计算方法。这些模型——一个著名的例子是ChatGPT——可以分析大量的文本,并找出哪些氨基酸最有可能一起出现。这种被称为ConPLex的新模型可以将目标蛋白质与潜在的药物分子相匹配,而无需执行计算分子结构的密集计算步骤。
使用这种方法,研究人员可以在一天内筛选出超过1亿种化合物,远远超过现有的任何模型。
麻省理工学院计算机科学和人工智能实验室(CSAIL)计算和生物学组的负责人、Simons数学教授之一的Bonnie Berger在新研究的高级作者之一中表示:“这项工作解决了高效和准确的体外筛选潜在药物候选的需求,而模型的可扩展性使大规模筛选能够评估非靶点效应、药物再利用以及确定突变对药物结合的影响。”
该研究本周发表在《美国国家科学院院刊》上,塔夫斯大学计算机科学教授Lenore Cowen也是本文的高级作者。罗洁特·辛格是CSAIL研究科学家,塞缪尔·斯莱德兹基是麻省理工学院的研究生,他们是本文的主要作者,麻省理工学院生物工程副教授,MGH、麻省理工学院和哈佛大学的Ragon研究所成员Bryan Bryson也是作者之一。除了这篇论文,研究人员还将他们的模型供其他科学家在线使用。
进行预测
近年来,计算科学家在开发能够基于氨基酸序列预测蛋白质结构方面取得了巨大进展。然而,利用这些模型来预测一个大型的潜在药物库与癌症蛋白质的相互作用却十分困难,主要因为计算蛋白质的三维结构需要大量时间和计算能力。
此外,这种类型的模型也没有很好地消除被称为诱饵数据的化合物,它们与成功的药物非常相似,但实际上与目标没有良好的相互作用。
“该领域长期存在的挑战之一是这些方法是脆弱的,从某种意义上说,如果我给模型一种看起来几乎像真东西的药物或小分子,但它在某些微妙的方式上略有不同,模型可能仍然预测它们会相互作用。“辛格说。
研究人员已经设计了可以克服这种脆弱性的模型,但它们通常只针对一类药物分子量身定制,而且它们不太适合大规模筛选,因为计算时间太长。
麻省理工学院的研究小组决定采用另一种方法,基于他们于2019年首次开发的蛋白质模型。语言模型与超过20,000种蛋白质的数据库一起工作,将这些信息编码为每个氨基酸序列的有意义的数字表示,从而捕获序列和结构之间的关联。
Sledzieski说:“有了这些语言模型,即使是具有非常不同序列但潜在具有相似结构或相似功能的蛋白质也可以在这个语言空间中以相似的方式表示,我们能够利用这一点来进行预测。”
在他们的新研究中,研究人员应用了蛋白质模型来确定哪些蛋白质序列将与特定药物分子相互作用,两者都具有数字表达式,被神经网络转化为共同的共享空间。他们训练了网络以已知的蛋白质-药物相互作用为基础,使其学会将蛋白质的特定特征与药物结合能力联系起来,而不必计算任何分子的三维结构。
“利用这种高质量的数值化表达方式,模型可以完全绕过原子表达方式,并从这些数字预测这种药物是否会结合,”辛格说。“这样做的好处是避免了需要经过原子表达方式的需要,但是数字仍然具有你需要的所有信息。”
这种方法的另一个优点是,它考虑到了蛋白质结构的灵活性,当与药物分子相互作用时,蛋白质结构可以“扭动”,呈现出略微不同的形状。
高亲和力
为了使他们的模型不容易被伪药分子欺骗,研究人员还采用了对比学习的概念进行训练阶段。在这种方法下,研究人员给模型提供“真实”的药物和伪装者的例子,并教它区分它们。
然后,研究人员通过筛选大约4,700种候选药物分子的库,以检测它们与51种被称为蛋白激酶的酶的结合能力。
从最热门的药物中,研究人员选择了19对药物蛋白质对进行实验测试。实验表明,在这19个靶点中,有12个具有很强的结合亲和力(在纳摩尔范围内),而几乎所有其他可能的药物蛋白对都没有亲和力。其中四对结合具有极高的亚纳摩尔亲和力(如此之强,以至于微小的药物浓度,大约十亿分之一,就会抑制蛋白质)。
虽然研究人员在这项研究中主要关注筛选小分子药物,但他们正在努力将这种方法应用于其他类型的药物,例如治疗性抗体。这种建模方法还可以用于进行潜在药物化合物的毒性筛选,以确保在动物模型测试之前它们不会产生任何不良反应。
“药物研发如此昂贵的部分原因是失败率很高。如果我们能够通过提前告知这种药物不太可能成功来降低失败率,这将大大降低药物研发的成本,”辛格说。
美国国家癌症研究所癌症数据科学实验室主任Eytan Ruppin没有参与这项研究,他表示,这种新方法“代表了药物靶标相互作用预测方面的重大突破,并为进一步增强其能力的未来研究开辟了更多的机会”,“例如,将结构信息纳入潜在空间或探索生成假样分子的分子生成方法等措施,可以进一步提高预测能力。”
来源:https://news.mit.edu/2023/new-model-offers-speedy-drug-discovery-0608