BenevolentAI:药物发现中的人工智能
2018年08月13日 由 荟荟 发表
778237
0
什么是人工智能和机器学习?
人工智能(AI)和机器学习(ML)的子领域,研究使机器巧妙地执行智能任务的过程和实用性,而无需明确地为这些任务编程。最近,AI系统在几个任务中接近或超过人类表现,例如游戏和图像识别,但这些通常是非常狭窄和集中的领域。尽管如此,人工智能以其各种形式成功应用于各种领域和具有挑战性的任务,从机器人,语音翻译,图像分析和物流到其在设计分子中的持续使用。
自20世纪60年代以来,药物化学已经以各种形式应用AI并且在设计化合物方面取得了不同程度的成功。有监督的学习被广泛应用,其中标记的训练数据集用于训练模型。一个例子是定量构效关系(QSAR)方法,它广泛用于预测给定化学结构的性质,如logP,溶解度和生物活性。相反,不依赖于标签的无监督学习在药物化学中也很流行,例如层次聚类,算法和主成分分析等实例被广泛用于分析和分解大型分子库到类似化合物的较小集合。
炒作与希望:管理期望
将AI和ML方法应用于药物发现挑战的最终目标仍然与以往一样:将最好的药物带到诊所以满足未满足的医疗需求。具体而言,对于药物发现和药物化学,这涉及识别药物目标,识别先导化合物,针对多种感兴趣的性质特征优化其设计以及识别合成途径以实现物质组成的任务。
AI通常被视为一个魔术按钮,可以随意按下以产生完美的输出,通常无论输入如何。人工智能的挑战是从猫的图像训练模型中设计猫的完美形象,能够自行驾驶而不会犯一个错误的汽车,或者可以设计用于安全有效地治疗疾病的药物。虽然人工智能不是每个挑战的答案,但它是一个有用的工具,如果正确使用可以帮助增强当前的理解和推动新的发现。在药物化学和药物发现中,最好的AI不一定是能够自主设计新药的单一AI,而是一种或多种不同的AI,可以在整个药物发现过程中从目标选择中更好地理解和设计新的输入,打击识别,
分子设计
人们可以在药物发现中提出的一个基本问题是:哪种化学结构会引起所需的特性。
从头分子设计可以将优化参数(如预测模型和分子相似性)与分子生成和搜索相结合,以模拟设计 - 制造 - 测试循环[
3 ]。然后,这些
计算机设计循环提供候选解决方案列表,其识别预测为所定义的轮廓最佳的化学结构。然而,在这些候选物的合成易处理性方面仍然存在重大挑战。
最近发表的一种分子设计方法,应用进化类似物来优化化学结构与一组确定的目标,从而形成具有所需轮廓的结构,称为多参数优化。片段算法的多目标自动替换通过初始化候选结构群来进行,所述候选结构群被迭代地评估,采样和评分以针对感兴趣的结构简档进行优化。碎片算法的多目标自动替换使用来自已知合成有机化学的衍生构建块的数据库,称为合成断开规则,其中保留了每个的粘合模式和出现频率。使用称为拓扑结构的快速对齐的新算法来选择替换子结构,以同时平衡替换的探索,同时最小化候选结构中包含的信息的破坏。该方法被证明可以优化CDK2抑制剂的效力,同时也提高了细胞的通透性。此外,由于用于生成分子构建块列表的方法,间接考虑了合成可访问性,但决不是所有情况下合成可访问性的度量都是适当的。
解决合成易处理性化合物自动化设计挑战的一种方法是使用基于合成规则的模型,该模型使用标准合成联轴器组合构件。然而,这些方法往往限制了对相关化学空间的探索[
7 ]。Gomez-Bombarelli
等人最近提出了另一种产生新化学结构的方法。和Segler
等人。这些方法引入了基于AI的分子生成模型。模型在来自示例性药物化学空间的分子结构的大数据集上训练,例如ChEMBL。这些生成模型学习数据集中分子的分布。从这种分布来看,这些方法允许从化学空间中采集新的分子,这些分子已经被学会更“类似药物”。最近,已经提出了许多神经生成方法并对分子设计进行了基准测试,最近的研究表明复发神经网络目前表现最佳。然而,合成可及性的主要挑战仍然是所需领域的进一步工作。
目前在自动化分子设计领域的活跃研究表明,没有一种解决方案适用于所有应用。合成易处理性(
视频下文)的最新进展无疑将有助于这项任务,另外改进相关化学空间的勘探和开发仍然是能够归入与合成和测试进展最相关的那些化学结构的重大障碍。该领域的一个特殊挑战是能够预测可靠的性质,例如生物活性。
预测建模
从原子理论的起源,化学家们一直致力于预测化合物的性质,而无需合成这些化合物。亚历山大·克拉姆·布朗在1869年指出,化合物的生理反应仅仅是其化学成分的函数,然而这种功能的定义依然具有挑战性。QSARs及其关系最初是由Hansch和Fujita于1962年提出的,从那时起它们仍然是一个活跃的研究领域。关于QSAR的工作已导致特定物理化学性质预测的常规进展,特别是ClogP,用于计算辛醇/水分配系数。
自50多年前QSAR正式问世以来,建模技术,分子表示,数据量和可用计算资源的数量显着增加。所有这些领域的进步意味着现在可以利用以前不适合或不适用于这些数据集的深度学习等技术。我们现在可以获得大量的化学结构数据以及测量的相关终点,从中可以生成预测模型。但是,这些数据的数量仍然有限,即使可以获得,质量也很高。在这里,期望更现代的ML方法能够处理这些噪声数据。
深度学习化学性质预测的第一个应用之一是Merck分子活动挑战的结果,多任务神经网络不仅可以同时预测一个终点,而且可以预测多个终点。深度学习化学性质预测现在是一个非常活跃的研究领域。
综合计划
规划新化合物的合成需要专业知识,经验和创造力。尽管化学家们现在可以合成他们想要的几乎所有东西,但是一些化合物本身就是一种难以破解的坚果。此外,
从头设计可以很容易地建议数以百万计的化学结构,只提供制造它们的原因,而不是它们如何实现。计算机辅助合成计划(CASP)可以在两种情况下都有所帮助:提供替代途径或帮助优先化易于合成的化合物。
CASP有着悠久的历史,在20世纪60年代。然而,具有讽刺意味的是,为CASP开发的主要概念,使用转换规则和启发式方法从目标开始向后工作,现在称为反合成分析,结果对人类非常有帮助,但对机器则不那么有用。
然而,最近,已经取得了原则性的进展。Grzybowski及其同事重新启发了基于启发式分析的经典理念,让专家将大量规则编入机器,并证明该机器能够为八种药物相关化合物提出易处理的途径。
更进一步,Segler 等人。证明计算机甚至可以在没有专家意见的情况下从化学反应数据中自主学习有机化学规则。使用深度神经网络,他们首先让机器学会专注于最有希望的回归分析规则,然后将其与现代蒙特卡罗树搜索算法结合起来提交给反应预测。一项双盲研究,平均合成有机化学家,认为这种方法产生的路线与文献中的路线相当。
反馈回路
药物化学和药物发现项目作为反馈回路运行,例如经典的“设计 - 制造 - 测试”循环,其中设计的化合物必须通过实验合成和测试,以便为进一步的决策提供反馈。显然,这个过程相对缓慢且昂贵。生成可以做出新设计决策的实验数据可能需要数周时间。使用上文“分子设计”部分中描述的方法生成具有适当分布的候选溶液,甚至如何制备化合物,无疑将简化该过程。但是,如果能够进一步改进怎么办呢?
主动学习是ML的一个领域,其中可以有效且高效地做出关于下一个数据点的决定 - 标记或复合以进行合成和测试。这种方法的一个预期优势是能够同时对可以推进项目的化合物进行预测,同时也能更快地确定应合成的化合物以改进模型。因此,模型中的这种改进可以间接地改善和简化药物发现过程,因为模型将更快地改进质量预测。
虽然在药物发现的主动学习方面已经做出了一些科学努力,但仍然需要大量投资才能证明其前瞻性地致力于制造和测试已鉴定的化合物。获得实验主义者的信心以制造不一定符合药物发现计划当前目标的化合物是有挑战性的,但可能会改进未来的过程。因此,这是AI和ML的一个例子,它不仅受其对药物发现的直接重要性的约束,而且还得到那些与这些系统密切合作并需要在我们日益自动化时制造和测试化合物的科学家的支持。药物发现的某些方面,同时确保人类继续大量参与该过程。
结论和未来的观点
AI和ML的最新进展已经从荒野时代回归了这些方法和方法。虽然许多新方法尚未在药物进入市场方面取得成果,但初步报告倾向于相信它们将在药物发现过程中变得比迄今为止看到的更加不可或缺。通过应用新的和有前途的技术,已经表明新系统可以有效地设计新的化学结构,预测所需的分子特性曲线甚至如何合成这些化合物。虽然这些研究领域中的许多领域之前曾多次被承诺,但它正在成为同时达到顶峰的许多不同进步的完美风暴。