模型:

HuangLab/CELL-E_2_HPA_Finetuned_480

英文

CELL-E 2

模型描述

CELL-E 2是原始模型的第二次迭代,它利用氨基酸序列和细胞核图像来预测与细胞核相关的蛋白质亚细胞定位。

CELL-E 2是一种新颖的双向转换器,可以生成描述蛋白质亚细胞定位的图像(以及反之)。CELL-E 2不仅捕捉到蛋白质定位的空间复杂性并产生定位的概率估计,还能够从图像中生成序列,实现全新的蛋白质设计。我们训练了 Human Protein Atlas (HPA)和 OpenCell 数据集。

CELL-E 2利用 ESM-2 中预训练的氨基酸嵌入。定位被预测为提供的细胞核上的二值图像。对这些二值图像进行加权的逻辑值,以生成期望定位的热图。

空间

我们有两个可用的空间,您可以在其中运行自己的数据进行预测!

模型变种

我们提供了几个版本的CELL-E 2模型。命名方案遵循训练集_隐藏大小的结构,其中隐藏大小设置为预训练ESM-2模型的嵌入维度。我们在注释中标注了最有用的模型,但如果存在内存限制,则可以使用其他模型。由于这些模型与BERT相似,因此任何这些模型中的嵌入可能有助于下游任务。

HPA模型:HPA模型是在HPA数据集上训练的。它们适用于通用预测,因为它们包含各种细胞类型。

Model Size Notes
1239321 4.73 GB Best for Image Prediction
12310321 6.31 GB
12311321 10.8 GB
12312321 17.5 GB Best for Sequence Prediction

OpenCell模型:OpenCell模型在OpenCell数据集上进行训练。这些模型仅包含HEK细胞,并且理想情况下仅用于对HEK细胞的预测。它们在图像预测方面表现良好,但生成的热图信息较少。

Model Size Notes
12313321 4.73 GB
12314321 6.31 GB
12315321 10.8 GB
12316321 17.5 GB Best for Sequence Prediction

细调的HPA模型:这些模型使用HPA模型作为检查点,然后在OpenCell数据集上进行细调。我们发现它们改善了图像生成能力,但对序列预测并没有必要改进。

Model Size Notes
12317321 4.73 GB Best for Image Prediction
12318321 6.31 GB
12319321 10.8 GB
12320321 17.5 GB

如何使用

完整的代码库可以在 GitHub 上获取。下载模型并确保存在nuclues_vqgan.yaml,threshold_vqgan.yaml,config.yaml和model.ckpt。

Here is how to use this model to do sequence prediction:

```python
configs = OmegaConf.load(configs/config.yaml);
model = instantiate_from_config(configs.model).to(device);
model.sample(text=sequence, condition=nucleus)

BibTeX条目和引文信息

@article{,
  author    = {Emaad Khwaja and
                Yun S Song and
                Aaron Agarunov and
                Bo Huang},
  title     = {{CELL-E 2:} Translating Proteins to Pictures and Back with a Bidirectional Text-to-Image Transforme},
}

联系方式

我们是一家跨学科实验室,位于 UCSF 。我们特别寻求光学工程、机器学习和细胞显微镜技术方面的人才。 Please reach out to Bo if you're interested in collaborating!