学习分子语言以预测其特性,可加快药物发现和材料开发速度

2023年07月07日 由 Camellia 发表 93950 0
这个AI系统只需要少量数据就能预测分子的特性,这可能加快药物发现和材料开发的速度。

发现新材料和药物通常涉及手动的试错过程,可能需要几十年时间和数百万美元的成本。为了简化这个过程,科学家们经常利用机器学习来预测分子的特性,并缩小他们需要在实验室中合成和测试的分子范围。

[caption id="attachment_54999" align="aligncenter" width="900"] 图片来源:Jose-Luis Olivares / MIT[/caption]

来自MIT和MIT-Watson AI实验室的研究人员开发了一种新的统一框架,比这些常见的深度学习方法更高效地同时预测分子的特性和生成新分子。

为了教机器学习模型预测分子的生物或机械特性,研究人员必须向其展示数百万个标记过的分子结构,这个过程被称为训练。由于发现分子的成本和手动标记数百万个结构的挑战,大规模的训练数据集通常很难获得,这限制了机器学习方法的有效性。

相比之下,MIT研究人员创建的系统可以在只有少量数据的情况下有效地预测分子的特性。他们的系统对于构建单元如何组合以产生有效分子的规则有着基本的理解。这些规则捕捉了分子结构之间的相似性,有助于系统以高效的数据方式生成新分子并预测其特性。

与其他机器学习方法相比,这种方法在小型和大型数据集上表现优异,并能够在给定少于100个样本的数据集的情况下准确预测分子的特性并生成可行的分子。

“我们的目标是使用一些数据驱动的方法加快新分子的发现速度,这样你就可以培训模型进行预测,而不需要所有这些成本高昂的实验,”主要作者、计算机科学和电气工程(EECS)研究生郭同学说。

郭的合著者包括MIT-IBM Watson AI实验室的研究人员Veronika Thost、Payel Das和Jie Chen;最近的MIT毕业生Samuel Song 和Adithya Balachandran;以及高级作者Wojciech Matusik,MIT电气工程和计算机科学教授,也是MIT计算机科学和人工智能实验室(CSAIL)的计算设计与制造小组的成员。该研究将在国际机器学习会议上进行展示。

学习分子的语言


为了在机器学习模型中取得最佳结果,科学家们需要具有数百万个与他们寻找的分子具有相似特性的训练数据集。然而,在现实中,这些领域特定的数据集通常非常小。因此,研究人员使用已经在一般分子的大型数据集上预训练过的模型,然后将其应用于一个更小的、有针对性的数据集。然而,由于这些模型没有获得太多领域特定的知识,它们往往表现不佳。

MIT团队采用了不同的方法。 他们创建了一个机器学习系统,可以自动学习分子的“语言”-也就是所谓的分子语法-只使用一个小的特定领域的数据集。 它使用这种语法来构建可行的分子并预测其特性。

在语言理论中,人们根据一组语法规则生成单词、句子或段落。你可以将分子语法看作同样的方式。它是一组生成规则,规定了如何通过组合原子和子结构生成分子或聚合物。

就像语言语法可以使用相同的规则生成大量的句子一样,一个分子语法可以表示大量的分子。具有类似结构的分子使用相同的语法生成规则,系统学会理解这些相似之处。

由于结构相似的分子通常具有相似的特性,系统利用其对分子相似性的基本理解来更高效地预测新分子的特性。

“一旦我们对不同分子的所有这些不同的语法进行了表征,我们就可以使用它来提升对特性预测的过程,”郭说。

系统使用强化学习来学习分子语法的生成规则——一种通过试错过程的方法,即模型根据使其更接近目标的行为获得奖励。

但是,由于有数十亿种方法可以组合原子和子结构,学习语法生成规则的过程对于除了最小型的数据集之外都计算上太昂贵了。

研究人员将分子语法解耦为两部分。第一部分被称为"元语法",是一个手动设计并在一开始就在系统中使用的通用的、适用范围广的语法。然后,他们只需要从特定领域数据集中学习一个较小的、特定于分子的语法。这种分层方法加快了学习过程。

小数据集,大成果


实验中,研究人员的新系统同时生成了可行的分子和聚合物,并预测了它们的特性,结果比几种常见的机器学习方法更准确,即使特定领域数据集只有几百个样本。一些其他方法还需要昂贵的预训练步骤,而新系统避免了这一点。

该技术在预测聚合物的物理特性方面特别出色,例如玻璃转变温度,也就是材料从固体转变为液体所需的温度。手动获得这些信息通常非常昂贵,因为实验需要极高的温度和压力。

为了进一步推动他们的方法,研究人员将一个训练集缩减了一半以上,仅剩94个样本。即使如此,他们的模型仍然得到了与使用整个数据集进行训练的方法相当的结果。

郭说:“这种基于语法的表示非常强大。由于语法本身是一种非常通用的表示方法,它可以应用于不同类型的图形数据。我们正在尝试发现除化学或材料科学之外的其他应用。”

在未来,他们还希望扩展当前的分子语法,包括分子和聚合物的三维结构,这对于理解聚合物链之间的相互作用至关重要。他们还正在开发一种界面,该界面将展示给用户学习到的语法生成规则,并征求反馈来纠正可能错误的规则,提高系统的准确性。

 

来源:https://news.mit.edu/2023/learning-language-molecules-predict-properties-0707
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消