该数据集包含了190万对蛋白质序列和配体SMILES的唯一组合,其中包含了实验确定的结合亲和力。它可以用于对语言模型进行微调。
数据来自以下来源:
使用以下代码加载测试集和训练集的划分
from datasets import load_dataset train = load_dataset("jglaser/binding_affinity",split='train[:90%]') validation = load_dataset("jglaser/binding_affinity",split='train[90%:]')
可选的,还提供了一些已经移除了特定蛋白质序列的数据集。即使这些序列不是训练数据的一部分,也可以用来测试对特定蛋白质的预测能力。
手动加载数据
文件 data/all.parquet 包含了预处理好的数据。要提取它,您需要下载并安装[git LFS support] https://git-lfs.github.com/]
要手动执行预处理,从以下网址下载数据集
在 bindingdb 中,将数据库下载为制表符分隔值 https://bindingdb.org > Download > BindingDB_All_2021m4.tsv.zip并将zip文件解压到 bindingdb/data 中
运行 bindingdb.ipynb 中的步骤
在 https://www.pdbbind.org.cn/ 注册一个账户,确认验证邮件后登录并下载
将这些文件提取到 pdbbind/data 中
在支持MPI的集群上运行脚本 pdbbind.py (例如,mpirun -n 64 pdbbind.py)。
执行 pdbbind.ipynb 中的步骤
前往 https://bindingmoad.org 并下载文件 every.csv (All of Binding MOAD, Binding Data) 和非冗余生物体 (nr_bind.zip)。将这些文件放置并解压到 binding_moad 中。
在支持MPI的集群上运行脚本 moad.py (例如,mpirun -n 64 moad.py)。
执行 moad.ipynb 中的步骤
从 https://zhanglab.ccmb.med.umich.edu/BioLiP/ 下载以下文件
以下步骤是可选的,它们不会产生额外的结合亲和力数据。
下载脚本
将2013数据库更新到当前状态
perl download_all-sets.pl
在支持MPI的集群上运行脚本 biolip.py (例如,mpirun -n 64 biolip.py)。
执行 biolip.ipynb 中的步骤
执行 combine_dbs.ipynb 中的步骤