数据集:

jglaser/pdbbind_complexes

英文

如何使用数据集

该数据集包含16,000多个唯一的蛋白质序列和配体SMILES以及它们的复合物坐标。

假定SMILES由P. Schwaller的正则表达式进行标记化。

每个(x,y,z)配体坐标映射到一个SMILES令牌,如果令牌不表示原子,则为nan。

每个受体坐标映射到相应残基的Cα坐标。

该数据集可用于微调语言模型,所有数据来自PDBind-cn。

使用已经预处理的数据

使用以下命令加载测试/训练分割:

from datasets import load_dataset
train = load_dataset("jglaser/pdbbind_complexes",split='train[:90%]')
validation = load_dataset("jglaser/pdbbind_complexes",split='train[90%:]')

自行进行预处理

手动执行预处理,从P.DBBind-cn下载数据集:

https://www.pdbbind.org.cn/ 注册一个帐户,确认验证电子邮件,然后登录并下载:

  • 索引文件(1)
  • 一般的蛋白质-配体复合物(2)
  • 精制的蛋白质-配体复合物(3)

将这些文件提取到 pdbbind/data 目录下。

在MPI启用的集群上使用计算任务运行脚本 pdbbind.py(例如,mpirun -n 64 pdbbind.py)。