CELL-E 2

模型描述

CELL-E 2 是原始模型的第二次迭代，利用氨基酸序列和细胞核图像来预测蛋白质亚细胞定位与细胞核的关系。

CELL-E 2 是一种新颖的双向转换器，可以生成描绘蛋白质亚细胞定位的图像（从氨基酸序列到图像的转换，甚至从图像到序列的转换），不仅捕捉蛋白质定位的空间复杂性并产生置于细胞核图像上的定位的概率估计，还能从图像中生成序列，实现全新的蛋白质设计。我们使用了 HPA 和 OpenCell 这两个数据集进行训练。

CELL-E 2 利用预训练的氨基酸嵌入来实现定位预测，将定位预测作为二值图像置于所提供的细胞核上。将 logit 值与这些二值图像进行加权处理，生成预期定位的热力图。

Spaces

我们提供了两个空间，您可以在这些空间上运行自己的数据进行预测！

模型变体

我们提供了几个 CELL-E 2 的版本。命名方案遵循训练集_隐藏层大小的结构，其中隐藏层大小设置为预训练 ESM-2 模型的嵌入维度。我们在备注中注明了最有用的模型，但如果存在内存限制，也可以使用其他模型。由于这些模型与 BERT 有相似之处，任何这些模型的嵌入对下游任务可能都有益处。

HPA 模型：HPA 模型是在 HPA 数据集上训练的。它们适用于一般目的的预测，因为它们包含多种细胞类型。

Model	Size	Notes
1239321	4.73 GB	Best for Image Prediction
12310321	6.31 GB
12311321	10.8 GB
12312321	17.5 GB	Best for Sequence Prediction

OpenCell 模型：OpenCell 模型是在 OpenCell 数据集上训练的。它们仅包含 HEK 细胞，理想情况下仅用于对 HEK 细胞的预测。它们在图像预测上表现良好，但生成的热力图包含的信息较少。

Model	Size	Notes
12313321	4.73 GB
12314321	6.31 GB
12315321	10.8 GB
12316321	17.5 GB	Best for Sequence Prediction

细调的 HPA 模型：这些模型使用 HPA 模型作为检查点，然后在 OpenCell 数据集上进行细调。我们发现它们改进了图像生成能力，但并没有在序列预测方面看到改进。

Model	Size	Notes
12317321	4.73 GB	Best for Image Prediction
12318321	6.31 GB
12319321	10.8 GB
12320321	17.5 GB

如何使用

完整的代码库可在 GitHub 上获取。下载模型并确保 nuclues_vqgan.yaml、threshold_vqgan.yaml、config.yaml 和 model.ckpt 等文件存在。

Here is how to use this model to do sequence prediction:

```python
configs = OmegaConf.load(configs/config.yaml);
model = instantiate_from_config(configs.model).to(device);
model.sample(text=sequence, condition=nucleus)

BibTeX entry 和引用信息

@article{,
  author    = {Emaad Khwaja and
                Yun S Song and
                Aaron Agarunov and
                Bo Huang},
  title     = {{CELL-E 2:} Translating Proteins to Pictures and Back with a Bidirectional Text-to-Image Transforme},
}

联系方式

我们是一家跨学科实验室，位于 UCSF 。我们特别寻求光学工程、机器学习和细胞显微镜方面的人才。 Please reach out to Bo if you're interested in collaborating!

作者:

Bo Huang Lab

数据集大小:

1.87 GB