Atomwise: 药物设计与卷积神经网络
2017年12月02日 由 荟荟 发表
318370
0
11月,Atomwise发表了第一篇关于我们技术的科学论文 - AtomNet:一种用于基于结构的药物发现中生物活性预测的深度卷积神经网络。这篇博文是对普通读者的介绍。它假定没有先前的科学知识,并且为教学目的而大大简化。
众所周知,Atomwise使用人工智能来帮助发现新药。从历史上看,我们还没有透露我们是如何做到的。最近,我们发布了关于我们的一项关键技术的第一个细节,我们称之为AtomNet。AtomNet标志着生命科学中机器学习的里程碑,因为它是第一个基于结构的“理性”药物设计的深度卷积神经网络。在本文中,我们想介绍AtomNet的工作原理,分享其创建背后的思路,并解释为什么它是一种重要的新药发现技术。
药物发现是昂贵的
发现一种新药比历史上的任何一点花费更多,花费更长的时间。近年来,将新药上市的平均价格 已上涨至约25亿美元,预计交货日期为10 - 15年。
这种趋势部分归因于药物发现过程中候选分子的高磨损率。对于每种成为药物的分子,数百万可能会被物理测试并丢弃为不合适的。(如果航空航天公司为每个停留在空中的设计建造并撞毁了数千架飞机,那么一场戏剧化就是想象。)
与此同时,紧急的全球健康挑战,如增加抗生素耐药性和新出现的大流行病毒,只是强调研究人员需要缩短发现时间,探索更多样化的化学空间,以寻找新的治疗方法。对于像阿尔茨海默病这样几十年来一直挑战研究人员的难题,也可以这样说。
药物设计与药物发现
对潜在药物的高失败率的合理回应是对我们开发和测试哪些药物作出更明智的决定。如果我们了解生物学目标,也许分子可以为这项任务量身定做。这个关键概念称为Rational Drug Design。
在生命科学中,当已知蛋白质在疾病中发挥重要作用时,我们将其称为“目标”。药物靶标的实例包括引起炎症的蛋白质,帮助肿瘤生长的蛋白质,或病毒用于感染人类细胞的蛋白质。在药物研究中,我们的目标是创造与这些靶标强烈相互作用的分子,从而减少(或增强)它们的作用。这些分子被称为该靶标的“配体”。
“ 在最基本的意义上,药物设计涉及分子的设计,这些分子在形状和电荷上互补,与生物分子靶相互作用,因此会与之结合。”一个很好的比喻是钥匙如何适应锁 - 有数十亿可能的键,但只有少数打开每个特定的锁。
[caption id="attachment_29079" align="aligncenter" width="600"]
图示:钥匙打开一把锁[/caption]
[caption id="attachment_29080" align="aligncenter" width="320"]
图示:配体与蛋白质的结合[/caption]
键与锁定
“密钥和锁定”模型为我们提供了一种分类AtomNet受其启发的技术的方法。面向锁定的技术被称为“基于结构的”算法,它们研究目标蛋白质的组成以指导它们的预测。这种方法很吸引人,因为原则上它适用于全新的目标。因此,已经引入了各种软件包,例如 Dock, AutoDock和 Glide。这些技术的主要限制是它们的准确性。一般来说,这些方法的假阳性率很高(如果不是,则说分子是一个很好的候选者)。许多研究人员仍对其有用性持怀疑态度。
相比之下,一些团队已经研究了面向关键技术,这些技术被称为 “基于配体的”算法。这些技术考虑了已知与靶标结合的配体的许多实例,并且理想地试图从该数据预测甚至更好的配体。例子包括 ROCS 和 LINGO。这些技术的主要局限在于它们要求研究人员已经发现了至少一些靶标配体。然而,对于新的,具有挑战性的和未解决的药物发现目标,可能已知的配体很少。在这种情况下,预计这些方法会产生较差的预测。
那么理想的解决方案是基于结构的合理药物设计系统,该系统也是高度准确的。这样的系统可以预测新的和具有挑战性的药物发现目标的候选分子,并且有合理的机会将这些预测证明是正确的 - 从研究人员那里获得他们需要的虚拟药物发现方法。我们认为AtomNet是朝这个方向迈出的一大步。
AtomNet教授大学化学
AtomNet是第一个使用深度卷积神经网络的药物发现算法。这种类型的网络仅在几年前就突显出来并具有独特的性质:它擅长将复杂概念理解为较小和较小信息的组合。这个属性是卷积网络为图像分类,语音识别和其他长期问题产生世界上最好结果的一个关键原因。例如,卷积模型可以通过首先学习图像中的一组基本特征(例如边缘)来学习识别面部。然后,模型可以通过组合边缘来学习识别诸如鼻子,耳朵和眼睛的部分。最后,模型可以通过组合这些部分来学习识别面部。
同样,AtomNet可能会了解到蛋白质和配体是由各种专门的化学结构组成的。这将是一个令人兴奋的结果,因为它表明AtomNet正在学习有机化学中的基本概念。有趣的是,这就是AtomNet所做的。当我们检查网络上的不同神经元时,我们会看到一些新的东西:AtomNet已经学会识别氢键,芳香性和单键碳等基本化学基团。
[caption id="attachment_29081" align="aligncenter" width="642"]
图示:AtomNet学习识别磺酰基 - 一种常见于抗生素中的结构。[/caption]
至关重要的是,没有人曾教过AtomNet有机化学的基石。AtomNet通过研究大量的靶标和配体数据发现了它们。它独立观察的模式是如此基础,药物化学家经常考虑它们,并且它们在学术课程中进行研究。简而言之,AtomNet正在教授大学化学。
AtomNet可以重现数百个历史实验
另一种测试AtomNet的方法是看它是否可以预测过去进行的物理实验中发生了什么。为此,旧金山加利福尼亚大学的一个小组开发了一个具有挑战性的基准,称为 DUD-E。该基准测试要求像AtomNet这样的系统进行超过100万次预测,并将答案与历史结果进行比较。这是一项艰难且备受推崇的测试,AtomNet实现了我们所知道的任何基于结构的算法的最佳结果:
按照现实世界的术语,AtomNet的基准测试结果表明它可以节省大约一半的早期药物筛选实验,并大大提高了更多的成功率。
AtomNet已经预测了两年的新潜在治疗方法
AtomNet不是一个假设的药物发现平台。它已经在真实药物研究中积极使用了将近两年。对于许多人来说,证明新发现技术的黄金标准就是简单地用它来做出重要的新发现。这也消除了教学测试的可能性,并且具有预测可能导致挽救生命的药物的好处。
AtomNet已经探讨了癌症,神经疾病,抗病毒药,抗寄生虫药和抗生素等问题。AtomNet预测的分子已成为研究项目的主要候选者,并在动物研究中取得了积极成果。我们很高兴继续这项工作,并希望在发展过程中不断分享我们的发现。