EvolutionaryScale推出ESM3:AI设计新型蛋白质

2024年06月27日 由 daydream 发表 249 0

随着全球对GPT-4o战胜Claude 3.5 Sonnet潜力的探索继续深入,一家由前Meta工程师创建的AI研究实验室EvolutionaryScale,正在一个截然不同的领域取得显著进展:使生物学变得可编程。


微信截图_20240627113038


这项任务听起来确实复杂,但这家仅成立一年的公司已经在业界掀起了波澜。最近,该公司宣布推出ESM3,这是一种本地多模态和生成性语言模型,能够根据提示设计新型蛋白质。在测试中,该模型成功生成了一种新型绿色荧光蛋白(esmGFP),这一过程在自然界中自然进化需要数亿年的时间。


“esmGFP……的序列与最接近的已知荧光蛋白仅有58%的相似性。根据自然界中发现的GFPs的多样化速度,我们估计这种新型荧光蛋白的生成相当于模拟了超过5亿年的进化。”该公司在周二发布在网站上的预印本论文中这样写道。


除了这一新模型(提供三种大小选择)外,这家初创公司还宣布在由Nat Friedman、Daniel Gross和Lux Capital领投的种子轮融资中筹集了1.42亿美元。亚马逊和英伟达的风险投资部门也参与了这一轮融资。最小的模型已经开源,旨在加速使用新模型的研究。


然而,构建模型只是第一步,其在现实世界中的影响力还需要时间来观察。


为什么EvolutionaryScale要用AI瞄准生物学


尽管生成式AI模型在理解和推理人类语言方面取得了巨大进步,但许多人都在思考,我们是否可以训练这些模型来解读生命的核心语言,进而利用它们来开发新型分子。生命的核心分子——RNA、蛋白质和DNA——在过去35亿年里通过自然化学反应不断进化。因此,有一种方法能够编程生物学和设计新分子,可能会为解决人类面临的一些最大挑战铺平道路,这些挑战包括气候变化、塑料污染以及癌症等疾病。


包括Google DeepMind和Isomorphic Labs在内的多个组织已经涉足这一领域,而最新加入的是EvolutionaryScale。这家成立于2023年的公司在过去几个月里开发了一些蛋白质语言模型,但其最新产品ESM3是其中最大的——并且天生就具备多模态和生成性。


ESM3被描述为生物学的前沿生成模型,它利用了1万亿万亿次浮点运算的计算能力,对从各种生物体和生物群落中抽取的27.8亿个自然蛋白质以及7710亿个独特标记进行了训练。它能够共同推理蛋白质的三种基本生物特性:序列、结构和功能。这三种数据模态在ESM3的输入和输出中表示为离散标记的轨迹。因此,用户可以向模型提供跨轨道的部分输入的组合,模型将为所有轨道提供输出预测,从而生成新型蛋白质。


“ESM3的多模态推理能力使科学家能够以前所未有的控制程度生成新蛋白质。例如,该模型可以被提示结合结构、序列和功能,为PETase的活性位点提出一个潜在的支架,PETase是一种降解聚对苯二甲酸乙二醇酯(PET)的酶,是蛋白质工程师感兴趣的目标,用于分解塑料废物。”该公司解释道。


在一个案例中,该公司利用带有思考链提示的模型设计了绿色荧光蛋白的新版本,这是一种罕见的蛋白质,可以附着在另一种蛋白质上并用其荧光标记,使科学家能够在细胞中看到特定蛋白质的存在。EvolutionaryScale发现,这种生成的蛋白质版本具有与自然荧光蛋白相似的亮度特性。而在自然界中,需要5亿年的时间才能进化出这一代蛋白质。


屏幕截图_27-6-2024_113117_venturebeat.com


该团队还指出,ESM3可以自我改进,对其生成的质量提供反馈。来自实验室实验或现有实验数据的反馈也可以应用于使其生成与目标保持一致。


影响仍有待观察


目前,ESM3提供三种大小选择:小、中、大。最小的版本拥有14亿个参数,已经在GitHub上以非商业许可的形式开源了权重和代码。同时,中等和大型版本——参数高达980亿——通过EvolutionaryScale的API和合作伙伴Nvidia及AWS的平台可供公司商业使用。


EvolutionaryScale希望研究人员能够利用这项技术解决世界上一些最大的问题,并造福人类健康和社会。然而,公司更广泛的应用仍需要时间来验证。这项技术最大的潜在受益者可能是制药公司,它们可以领导针对危及生命状况的新型药物的开发。


该公司之前的模型已被用于改善抗体的治疗相关特性,以及检测可能对公共健康构成重大风险的COVID-19变异株等用例。

文章来源:https://venturebeat.com/ai/meta-alum-launches-ai-biology-model-that-simulates-500-million-years-of-evolution/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消