ESM-1b( paper , repository )是一种基于变压器的蛋白质语言模型,经过无标签监督的蛋白质序列数据进行训练。该模型在Uniref50上进行了预训练,采用了无监督的掩码语言建模(MLM)目标,意味着模型被训练来预测周围序列上的氨基酸。这种预训练目标使得ESM-1b能够学习一般有用的特征,这些特征可以转移到下游的预测任务中。ESM-1b已经在与蛋白质结构和功能相关的各种任务中进行了评估,包括远程同源性检测、二级结构预测、接触预测和突变对功能影响的预测,取得了最先进的结果。
重要提示:现在提供ESM-2的多种检查点大小。对于大多数任务而言,ESM-2的性能优于ESM-1和ESM-1b,因此我们建议除非明确需要与ESM-1b进行比较,否则应使用ESM-2。ESM-2与ESM-1b最接近的检查点大小为 esm2_t33_650M_UR50D 。
ESM-1b模型基于 RoBERTa 架构和训练程序,使用Uniref50 2018_03的蛋白质序列数据库。请注意,预训练仅针对原始蛋白质序列。训练是纯无监督的--在训练过程中,没有提供与结构或功能相关的标签。
训练采用了掩码语言建模目标。屏蔽遵循 Devlin et al. 2019 的过程,随机屏蔽输入中的15%氨基酸,并包括穿透和随机令牌噪声。与RoBERTa模型的一个架构区别是ESM-1b使用了 pre-activation layer normalization 。
获取的表示可以用作下游任务的特征。例如,如果您有一个蛋白质活性测量数据集,可以在ESM-1b输出的特征上拟合回归模型,以预测新序列的活性。该模型还可以进行微调。
ESM-1b可以无需进一步的监督推断出蛋白质的结构和功能,即它能够进行零-shot转移结构和功能预测。 Rao et al. 2020 发现ESM-1b的注意力头直接代表蛋白质三维结构中的接触。 Meier et al. 2021 发现ESM-1b可以用于评分蛋白质功能上的序列变异。
该模型可用于特征提取,在下游任务上进行微调,或直接用于对蛋白质序列的结构和功能进行推断,就像其他掩码语言模型一样。有关完整的示例,请参阅 our notebook on fine-tuning protein models 。
ESM-1b模型是在约3,000万蛋白质序列的 Uniref50 2018-03上进行预训练的。
蛋白质序列被大写并使用单个空格进行标记,词汇表大小为21.然后,模型的输入形式如下:
<cls> Protein Sequence A
在训练过程中,长度超过1023个标记(不包括CLS)的序列将被随机裁剪为长度为1023的序列。
每个序列的屏蔽过程的详细信息遵循Devlin等,2019年的方法:
该模型在128个NVIDIA v100 GPU上进行了50万次更新的训练,使用序列长度1024(每批131,072个标记)。使用的优化器是Adam(betas=[0.9, 0.999]),学习率为1e-4,权重衰减为0,学习率预热16k步,并在学习率之后进行反比例的平方根衰减。