该数据集包含16,000多个唯一的蛋白质序列和配体SMILES以及它们的复合物坐标。
假定SMILES由P. Schwaller的正则表达式进行标记化。
每个(x,y,z)配体坐标映射到一个SMILES令牌,如果令牌不表示原子,则为nan。
每个受体坐标映射到相应残基的Cα坐标。
该数据集可用于微调语言模型,所有数据来自PDBind-cn。
使用以下命令加载测试/训练分割:
from datasets import load_dataset train = load_dataset("jglaser/pdbbind_complexes",split='train[:90%]') validation = load_dataset("jglaser/pdbbind_complexes",split='train[90%:]')
手动执行预处理,从P.DBBind-cn下载数据集:
在 https://www.pdbbind.org.cn/ 注册一个帐户,确认验证电子邮件,然后登录并下载:
将这些文件提取到 pdbbind/data 目录下。
在MPI启用的集群上使用计算任务运行脚本 pdbbind.py(例如,mpirun -n 64 pdbbind.py)。