数据集:

jglaser/binding_affinity

英文

如何使用数据集

该数据集包含了190万对蛋白质序列和配体SMILES的唯一组合,其中包含了实验确定的结合亲和力。它可以用于对语言模型进行微调。

数据来自以下来源:

  • BindingDB
  • PDBbind-cn
  • BioLIP
  • BindingMOAD

使用已经预处理好的数据

使用以下代码加载测试集和训练集的划分

from datasets import load_dataset
train = load_dataset("jglaser/binding_affinity",split='train[:90%]')
validation = load_dataset("jglaser/binding_affinity",split='train[90%:]')

可选的,还提供了一些已经移除了特定蛋白质序列的数据集。即使这些序列不是训练数据的一部分,也可以用来测试对特定蛋白质的预测能力。

  • train_no_kras (没有KRAS蛋白质)

手动加载数据

文件 data/all.parquet 包含了预处理好的数据。要提取它,您需要下载并安装[git LFS support] https://git-lfs.github.com/]

自行预处理

要手动执行预处理,从以下网址下载数据集

  • BindingDB
  • 在 bindingdb 中,将数据库下载为制表符分隔值 https://bindingdb.org > Download > BindingDB_All_2021m4.tsv.zip并将zip文件解压到 bindingdb/data 中

    运行 bindingdb.ipynb 中的步骤

  • PDBBind-cn
  • https://www.pdbbind.org.cn/ 注册一个账户,确认验证邮件后登录并下载

    • 索引文件 (1)
    • 一般的蛋白质-配体复合物 (2)
    • 精制的蛋白质-配体复合物 (3)

    将这些文件提取到 pdbbind/data 中

    在支持MPI的集群上运行脚本 pdbbind.py (例如,mpirun -n 64 pdbbind.py)。

    执行 pdbbind.ipynb 中的步骤

  • BindingMOAD
  • 前往 https://bindingmoad.org 并下载文件 every.csv (All of Binding MOAD, Binding Data) 和非冗余生物体 (nr_bind.zip)。将这些文件放置并解压到 binding_moad 中。

    在支持MPI的集群上运行脚本 moad.py (例如,mpirun -n 64 moad.py)。

    执行 moad.ipynb 中的步骤

  • BioLIP
  • https://zhanglab.ccmb.med.umich.edu/BioLiP/ 下载以下文件

    • 受体1.tar.bz2 (受体1,非冗余集)
    • ligand_2013-03-6.tar.bz2 (配体)
    • BioLiP.tar.bz2 (注释) 并在 biolip/data 中解压它们。

    以下步骤是可选的,它们不会产生额外的结合亲和力数据。

    下载脚本

    • 从周更新字页面下载 download_all_sets.pl 文件。

    将2013数据库更新到当前状态

    perl download_all-sets.pl

    在支持MPI的集群上运行脚本 biolip.py (例如,mpirun -n 64 biolip.py)。

    执行 biolip.ipynb 中的步骤

  • 最终的合并和筛选
  • 执行 combine_dbs.ipynb 中的步骤