模型:
liyuesen/druggpt
A generative drug design model based on GPT2.
DrugGPT是基于GPT结构的生成药物设计策略,旨在通过使用自然语言处理技术为药物设计带来创新。
该项目将GPT模型应用于化学空间的探索,以发现具有特定蛋白质结合能力的新分子。
DrugGPT通过在高达180万条蛋白质-配体结合数据上进行训练,提供了一种快速高效的药物候选分子生成方法。
git clone https://github.com/LIYUESEN/druggpt.git cd druggpt或者您可以访问我们的 GitHub repo ,然后点击“Code > Download ZIP”来下载这个仓库。
conda create -n druggpt python=3.7 conda activate druggpt
pip install datasets transformers scipy scikit-learn pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117 conda install -c openbabel openbabel
必需参数:
-p | --pro_seq:输入蛋白质氨基酸序列。
-f | --fasta:输入一个FASTA文件。
只能指定-p和-f中的一个。
-l | --ligand_prompt:输入一个配体提示。
-e | --empty_input:启用直接生成模式。
-n | --number:至少生成多少个分子。
-d | --device:要使用的硬件设备。默认为'cuda'。
-o | --output:生成分子的输出目录。默认为'./ligand_output/'。
-b | --batch_size:每批生成多少个分子。如果RAM较低,请尝试减小此值。默认为32。
如果您想输入一个蛋白质FASTA文件
python drug_generator.py -f bcl2.fasta -n 50
如果您想输入蛋白质的氨基酸序列
python drug_generator.py -p MAKQPSDVSSECDREGRQLQPAERPPQLRPGAPTSLQTEPQGNPEGNHGGEGDSCPHGSPQGPLAPPASPGPFATRSPLFIFMRRSSLLSRSSSGYFSFDTDRSPAPMSCDKSTQTPSPPCQAFNHYLSAMASMRQAEPADMRPEIWIAQELRRIGDEFNAYYARRVFLNNYQAAEDHPRMVILRLLRYIVRLVWRMH -n 50
如果您想为配体提供提示
python drug_generator.py -f bcl2.fasta -l COc1ccc(cc1)C(=O) -n 50
注意:如果您在Linux环境中运行,请用单引号('')括起来配体的提示。
python drug_generator.py -f bcl2.fasta -l 'COc1ccc(cc1)C(=O)' -n 50
DrugGPT: A GPT-based Strategy for Designing Potential Ligands Targeting Specific Proteins
Yuesen Li, Chengyi Gao, Xin Song, Xiangyu Wang, Yungang Xu, Suxia Han
bioRxiv 2023.06.29.543848; doi: https://doi.org/10.1101/2023.06.29.543848