模型:

HuangLab/CELL-E_2_HPA_2560

英文

CELL-E 2

模型描述

CELL-E 2是原始模型的第二次迭代,它利用氨基酸序列和细胞核图像来预测蛋白质在细胞亚细胞定位方面与细胞核的关系。

CELL-E 2是一种新颖的双向变压器,可以根据氨基酸序列生成描述蛋白质亚细胞定位的图像(及相反情况)。CELL-E 2不仅捕获蛋白质定位的空间复杂性并生成概率估计值,还能从图像中生成序列,实现全新的蛋白质设计。我们在 Human Protein Atlas (HPA)和 OpenCell 数据集上进行了训练。

CELL-E 2利用了预训练的氨基酸嵌入来进行定位的预测,并在提供的细胞核上产生二值图像。对这些二值图像进行加权以产生预期定位的热图。

空间

我们提供了两个空间,您可以在其中运行自己的数据预测!

模型变体

我们提供了几个CELL-E 2的版本。命名方案遵循训练集_隐藏大小的结构,其中隐藏大小设置为预训练ESM-2模型的嵌入维度。我们在注释中标注了最有用的模型,但如果存在内存限制,也可以使用其他模型。由于这些模型与BERT具有相似性,因此任何这些模型的嵌入都可能有助于下游任务。

HPA模型:HPA模型在HPA数据集上进行了训练。它们适用于一般预测,因为它们包括多种细胞类型。

Model Size Notes
1239321 4.73 GB Best for Image Prediction
12310321 6.31 GB
12311321 10.8 GB
12312321 17.5 GB Best for Sequence Prediction

OpenCell模型:OpenCell模型在OpenCell数据集上进行了训练。它们只包含HEK细胞,并且理想情况下仅用于HEK细胞的预测。它们在图像预测方面表现良好,但生成的热图信息较少。

Model Size Notes
12313321 4.73 GB
12314321 6.31 GB
12315321 10.8 GB
12316321 17.5 GB Best for Sequence Prediction

精调的HPA模型:这些模型使用HPA模型作为检查点,然后在OpenCell数据集上进行了微调。我们发现它们改善了图像生成能力,但对序列预测不一定有改善。

Model Size Notes
12317321 4.73 GB Best for Image Prediction
12318321 6.31 GB
12319321 10.8 GB
12320321 17.5 GB

如何使用

完整的代码库可以在 GitHub 上获得。下载模型并确保nuclues_vqgan.yaml,threshold_vqgan.yaml,config.yaml和model.ckpt存在。

Here is how to use this model to do sequence prediction:

```python
configs = OmegaConf.load(configs/config.yaml);
model = instantiate_from_config(configs.model).to(device);
model.sample(text=sequence, condition=nucleus)

BibTeX条目和引用信息

@article{,
  author    = {Emaad Khwaja and
                Yun S Song and
                Aaron Agarunov and
                Bo Huang},
  title     = {{CELL-E 2:} Translating Proteins to Pictures and Back with a Bidirectional Text-to-Image Transforme},
}

联系

我们是一家跨学科实验室,位于 UCSF 。我们特别寻找光学工程,机器学习和细胞显微镜方面的人才。 Please reach out to Bo if you're interested in collaborating!