大型语言模型下一个前沿领域:探索生物学

2023年07月17日 由 daydream 发表 555932 0
大型语言模型(LLM)如GPT-4以其惊人的自然语言掌握能力在全球范围内取得了巨大成功。然而,LLM的最重要的长期机遇将涉及一种完全不同类型的语言:生物语言。



通过过去一个世纪在生物化学、分子生物学和遗传学等领域取得的研究进展,一个显著的主题已经浮现出来:生物是一个可以被解读、可编程,甚至在某些方面是数字化的系统。

DNA使用仅仅四种变量(腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T))对地球上每个生物的完整遗传指令进行编码。与之相比,现代计算系统使用两个变量(0和1)来编码全球的数字电子信息。一个系统是二进制的,另一个是四进制的,但这两个系统在概念上有着令人惊讶的重叠;这两个系统都可以被正确地视为数字化系统。

再举一个例子,每种生物体内的每种蛋白质都是由一维的氨基酸链组成并呈特定顺序连接而成的。蛋白质的长度从几十个到几千个氨基酸不等,可供选择的氨基酸有20种。

这也代表了一个极其可计算的系统,也是语言模型适合学习的系统。

正如DeepMind的首席执行官/联合创始人Demis Hassabis所说:“在其最基本的层次上,我认为生物可以被视为一个信息处理系统,尽管是一个非常复杂和动态的系统。就像数学被证明是物理的正确描述语言一样,生物学可能被证明是应用人工智能的完美机制。"

当大型语言模型能够充分利用大量充满信号的数据时,它们发挥出了最强大的能力,推断出超出任何人类能力范围的潜在模式和深层结构。然后,它们可以利用对主题的精细理解生成新颖、令人惊叹的复杂输出。

例如,通过摄取互联网上的所有文本,像ChatGPT这样的工具已经学会了在任何可以想象的话题上进行深思熟虑和细微差别的交谈。通过摄取数十亿张图像,像Midjourney这样的文本到图像模型已经学会了按需生成创造性的原始图像。

将大型语言模型应用于生物数据,使其学会生命的语言,将会使自然语言和图像显得微不足道。

具体来说,这会是什么样子?

在近期,应用大型语言模型于生命科学领域最有吸引力的机会是设计新型蛋白质。

蛋白质 101


蛋白质是生命自身的核心。正如著名生物学家Arthur Lesk所说:“在分子尺度上的生命戏剧中,蛋白质是行动的地方。”

蛋白质参与几乎所有发生在每个生物体内的重要活动:消化食物、收缩肌肉、将氧气输送到全身、攻击外来病毒。你的激素是由蛋白质构成的;你的头发也是。

蛋白质如此重要是因为它们非常多功能。它们能够承担大量不同的结构和功能,远远超过其他任何类型的生物分子。这种令人难以置信的多功能性是蛋白质构建方式的直接结果。

如上所述,每个蛋白质都由称为氨基酸的构建模块组成,按照特定的顺序串在一起。基于这种一维氨基酸序列,蛋白质会折叠成复杂的三维结构,从而使其能够执行其生物功能。

蛋白质的形状与其功能密切相关。举个例子,抗体蛋白质会折叠成特定的形状,使其能够精确识别并攻击外来体,就像钥匙插入锁孔一样。再举个例子,酶是能够加速生化反应的蛋白质,它们的形状经过特别设计,能够与特定分子结合,从而催化特定的反应。因此,理解蛋白质所折叠成的形状对于理解生物体的功能以及最终理解生命本身的运作是至关重要的。

仅仅根据蛋白质的一维氨基酸序列来确定其三维结构,已经成为生物学领域一个长达半个多世纪的难题。被称为“蛋白质折叠问题”,它困扰着几代科学家。2007年的一名评论者将蛋白质折叠问题描述为“现代科学中最重要但尚未解决的问题之一”。

深度学习与蛋白质:天作之合


2020年末,在生物学和计算机领域的一个划时代时刻,一个名为AlphaFold的人工智能系统解决了蛋白质折叠问题。由Alphabet的DeepMind研发,AlphaFold准确预测了蛋白质的三维结构,精度仅相差一个原子宽度,远远超过了人类此前开发的任何其他方法。

难以言喻的是AlphaFold的重要性。长期从事蛋白质折叠研究的专家John Moult总结得很好:“这是第一次通过人工智能解决了一个严肃的科学问题。”

然而,当涉及到人工智能和蛋白质时,AlphaFold只是个开始。

AlphaFold并非采用大型语言模型构建。它依赖于一种较早的生物信息学构建称为多重序列比对(MSA),其中通过将一个蛋白质序列与进化相似的蛋白质进行比较来推断其结构。

正如AlphaFold明确表明的,MSA是强大的,但也有其局限性。

首先,它速度慢、计算密集,因为需要参考许多不同的蛋白质序列来确定任何一个蛋白质的结构。更重要的是,由于MSA需要存在大量的进化和结构相似的蛋白质才能推断新蛋白质序列的性质,对于所谓的“孤儿蛋白质”——缺乏近似物的蛋白质,它的作用有限。这些孤儿蛋白质大约占已知蛋白质序列的20%。

最近,研究人员开始探索一种有趣的替代方法:使用大型语言模型来预测蛋白质结构,而不是使用多重序列比对。

“蛋白质语言模型”——不是基于英语单词而是基于蛋白质序列训练的LLM——展示了惊人的能力,能够洞察蛋白质序列、结构和功能之间的复杂模式和相互关系:例如,改变蛋白质序列中特定氨基酸在特定部位将如何影响蛋白质折叠成的形状。蛋白质语言模型能够学会蛋白质的语法或语言学。

蛋白质语言模型的概念可以追溯到2019年哈佛大学乔治教堂实验室的UniRep工作(尽管UniRep使用的是LSTM而不是如今最先进的Transformer模型)。

2022年末,Meta发布了ESM-2和ESMFold,这是迄今为止最大规模和最复杂的蛋白质语言模型之一,参数达到150亿。(ESM-2是LLM本身;ESMFold是与之关联的结构预测工具)

ESM-2/ESMFold在预测蛋白质的三维结构方面与AlphaFold几乎一样准确。但与AlphaFold不同的是,它能够根据单个蛋白质序列生成结构,而无需输入任何结构信息。因此,它比AlphaFold快60倍。当研究人员需要在蛋白质工程工作流中同时筛选数百万个蛋白质序列,这种速度优势产生了巨大的影响。ESMFold还能够为缺乏进化相似物的孤儿蛋白质提供比AlphaFold更准确的结构预测。

语言模型对蛋白质“潜在空间”的推广理解能力在蛋白质科学中带来了令人兴奋的可能性。

然而,自AlphaFold以来,这个领域发生了更加强大的概念性突破。

简而言之,这些蛋白质模型可以被颠覆:与其基于序列预测蛋白质的结构,像ESM-2这样的模型可以反过来根据所需的性质生成完全新颖的蛋白质序列,这些序列在自然界中并不存在。

发明新的蛋白质


如今世界上存在的所有蛋白质只代表了理论上可能存在的蛋白质的微小一部分。这就是机遇所在。

以粗略的数据来看:人体中存在的蛋白质总集合——所谓的“人类蛋白组”——估计在8万至40万之间。与之相比,理论上可能存在的蛋白质数量约为10^1300次方,这是一个难以想象的大数字,远远超过宇宙中的原子数量。(需要明确的是,并不是这10^1300种可能的氨基酸组合都会生成生物可行的蛋白质,但其中某些子集可能会。)

在过去数百万年的时间里,漫长的进化过程已经在偶然中发现了数万或数十万种可行的组合。但这只是冰山一角。

正如领先的蛋白质人工智能初创公司Generate Biomedicines的共同创始人Molly Gibson所说:“自然界在生命历史中采样的序列空间量几乎只相当于地球所有海洋中的一滴水。”

我们有机会改善自然。毕竟,尽管进化是一种强大的力量,但它并非无所不知;它不会提前计划;它不会推理或自上而下地优化。它是随机和机缘巧合的,传播那些恰好有效的组合。

通过人工智能,我们首次有能力系统和全面地探索蛋白质空间中广阔无垠的未知领域,以设计出自然界从未存在过的完全新型蛋白质,为我们的医疗和商业需求量身定制。

我们将能够设计出新型蛋白质治疗剂,用于治疗各种人类疾病,从传染性疾病到癌症;它们将帮助实现基因编辑;它们将改变材料科学;它们将提高农业产量;它们将净化环境中的污染物;以及我们现在甚至无法想象的其他许多应用。

一些早期利用深度学习进行全新蛋白质设计的尝试并没有使用大型语言模型。

一个著名的例子是ProteinMPNN,它来自华盛顿大学David Baker的世界知名实验室。ProteinMPNN架构主要依赖蛋白质结构数据来生成新型蛋白质,而不使用大型语言模型。

Baker实验室最近发表了更先进、更普遍的蛋白质设计模型RFdiffusion。顾名思义,RFdiffusion是使用扩散模型构建的,这与推动Midjourney和Stable Diffusion等文本到图像模型的人工智能技术相同。RFdiffusion可以生成新颖、可定制的蛋白质“骨架”——也就是蛋白质的整体结构框架——然后再在其上层叠序列。

像ProteinMPNN和RFdiffusion这样以结构为重点的模型是在基于人工智能的蛋白质设计领域取得了令人印象深刻的成就,推动了这一领域的最新进展。然而,由于大型语言模型的变革能力,我们可能正处于该领域的一个新的重大变革的边缘。

为什么与其他蛋白质设计计算方法相比,语言模型如此有前途?一个关键原因:扩展。

缩放法则


人工智能最近取得巨大进步背后的关键力量之一是所谓的“缩放定律”:持续增加LLM参数数量、训练数据和计算能力会带来令人难以置信的性能改进。

随着规模的每一个数量级的增长,语言模型已经展示出非凡的、意想不到的、新兴的新能力,这些能力超越了在较小规模上可能实现的能力。

OpenAI对扩展原则的承诺,比其他任何事情都重要,这使该组织近年来跃居人工智能领域的最前沿。随着他们从 GPT-2 到 GPT-3 再到 GPT-4 及更高版本,OpenAI 构建了比世界上任何其他组织更大的模型、部署了更多的计算并在更大的数据集上进行训练,释放了令人惊叹的、前所未有的 AI 功能。

缩放定律在蛋白质领域有何关系?

由于科学突破使基因测序在过去二十年中变得更便宜,更容易获得,可用于训练AI模型的DNA和蛋白质序列数据的数量呈指数级增长,远远超过蛋白质结构数据。

蛋白质序列数据可以进行标记化处理并且在所有意义上可以被视为文本数据;毕竟,它们由一定顺序的氨基酸线性串联而成,就像句子中的单词一样。大型语言模型可以仅基于蛋白质序列进行训练,从而发展出对蛋白质结构和生物学的细致理解。

因此,利用LLM进行大规模扩展的努力极具潜力,可能在蛋白质科学领域产生令人惊讶的新见解和能力。

第一个利用基于Transformer的LLM设计全新蛋白质的工作是Salesforce Research于2020年发布的ProGen。最初的ProGen模型包含12亿个参数。

ProGen的首席研究员Ali Madani后来创办了一家名为Profluent Bio的初创公司,旨在推进和商业化基于LLM的蛋白质设计的最新技术。

尽管Madani在蛋白质设计中开创了LLM的应用,但他也清楚地认识到,单独使用原始蛋白质序列训练的现成语言模型并不是应对这一挑战最强大的方式。结构和功能数据的整合是必不可少的。

Madani表示:“蛋白质设计中最重大的突破将在多样化数据的精心策划和灵活学习的多功能建模相交之处产生。”他补充说:“这意味着利用我们可掌握的所有高信号数据,包括从实验室衍生出的蛋白质结构和功能信息。”

另一个有趣的初创企业Nabla Bio应用LLM设计全新蛋白质治疗剂。Nabla Bio是哈佛大学乔治教堂实验室的产物,由UniRep团队领导,专注于抗体。考虑到如今60%的蛋白质治疗剂都是抗体,并且世界上销量最高的两种药物也是抗体治疗剂,这毫不令人惊讶。

Nabla决定不开发自己的治疗剂,而是将其先进技术提供给生物制药合作伙伴,作为帮助他们开发自己药物的工具。

随着世界逐渐醒悟到蛋白质设计代表着一个规模巨大且仍未充分探索的领域,可以应用大型语言模型看似神奇的能力,预计在接下来的几个月和几年中,这个领域将会有更多的初创公司活动。

前方的道路


弗朗西斯·阿诺德(Frances Arnold)在2018年诺贝尔化学奖的获奖感言中说:“今天,从实际角度来看,我们可以读取、写入和编辑任何 DNA 序列,但我们无法进行创作。生命的编码是一部交织着无数参与者和乐器演奏的交响乐。也许我们可以从自然中的作品中剪切和粘贴片段,但我们不知道如何为单独的酶通路谱写乐句。”

就在五年前,这是事实。

但是人工智能可能会让我们有能力在生命历史上首次从头开始创造全新的蛋白质(及其相关的基因编码),根据我们的需求量身定制。这是一个令人敬畏的可能性。

这些新颖的蛋白质将用于治疗广泛的人类疾病,从传染性疾病到癌症;它们将帮助实现基因编辑;它们将改变材料科学;它们将提高农业产量;它们将净化环境中的污染物;还有我们甚至无法想象的其他更多应用。

在受AI驱动,尤其是LLM驱动的蛋白质设计领域,仍处于初级阶段,尚未经过验证。仍然存在着重要的科学、工程、临床和商业障碍。将这些新型治疗剂和产品推向市场将需要数年的时间。

然而,从长远来看,AI在市场应用中很少有比这更有前景的。

让我们放眼未来。全新蛋白质设计并不是生命科学中唯一令人兴奋的大型语言模型的机会。

语言模型可以用于生成其他类别的生物分子,尤其是核酸。例如,一个被热炒的初创公司Inceptive正在应用LLM生成新颖的RNA治疗剂。

其他团队则有更广泛的追求,旨在构建一般化的“生物基础模型”,可以融合跨基因组学、蛋白质序列、细胞结构、表观遗传状态、细胞图像、质谱法、空间转录组学等多种数据类型。

最终目标是从对单个分子(如蛋白质)的建模发展到对蛋白质与其他分子的相互作用的建模,然后到对整个细胞、组织、器官以至整个生物体的建模。

构建一个人工智能系统,能够理解和设计复杂生物系统的每一个细微之处,让人惊叹。但在未来,这将在我们的掌握之中。

20世纪由物理学的基本进展所定义:从阿尔伯特·爱因斯坦的相对论理论到量子力学的发现,从核弹到晶体管。正如许多现代观察家所指出的,21世纪正在成为生物学的世纪。人工智能和大型语言模型将在接下来几十年中在揭示生物学的秘密和释放其潜力方面发挥核心作用。

 

来源:https://www.forbes.com/sites/robtoews/2023/07/16/the-next-frontier-for-large-language-models-is-biology/?sh=7646f1686f05
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消