模型:

liyuesen/druggpt

许可:

gpl-3.0

其他:

text-generation-inference biology medical chemistry gpt2

数字对象标识符:

10.57967/hf/0627

类库:

Transformers PyTorch

任务:

文本生成

模型介绍文件清单

英文

DrugGPT

A generative drug design model based on GPT2.

?介绍

DrugGPT是基于GPT结构的生成药物设计策略，旨在通过使用自然语言处理技术为药物设计带来创新。

该项目将GPT模型应用于化学空间的探索，以发现具有特定蛋白质结合能力的新分子。

DrugGPT通过在高达180万条蛋白质-配体结合数据上进行训练，提供了一种快速高效的药物候选分子生成方法。

?部署

克隆

git clone https://github.com/LIYUESEN/druggpt.git
cd druggpt

或者您可以访问我们的 GitHub repo ，然后点击“Code > Download ZIP”来下载这个仓库。

创建虚拟环境

conda create -n druggpt python=3.7
conda activate druggpt

下载Python依赖

pip install datasets transformers scipy scikit-learn
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
conda install -c openbabel openbabel

?如何使用

使用 drug_generator.py

必需参数：

-p | --pro_seq：输入蛋白质氨基酸序列。
-f | --fasta：输入一个FASTA文件。
只能指定-p和-f中的一个。
-l | --ligand_prompt：输入一个配体提示。
-e | --empty_input：启用直接生成模式。
-n | --number：至少生成多少个分子。
-d | --device：要使用的硬件设备。默认为'cuda'。
-o | --output：生成分子的输出目录。默认为'./ligand_output/'。
-b | --batch_size：每批生成多少个分子。如果RAM较低，请尝试减小此值。默认为32。

?示例用法

如果您想输入一个蛋白质FASTA文件

python drug_generator.py -f bcl2.fasta -n 50

如果您想输入蛋白质的氨基酸序列

python drug_generator.py -p MAKQPSDVSSECDREGRQLQPAERPPQLRPGAPTSLQTEPQGNPEGNHGGEGDSCPHGSPQGPLAPPASPGPFATRSPLFIFMRRSSLLSRSSSGYFSFDTDRSPAPMSCDKSTQTPSPPCQAFNHYLSAMASMRQAEPADMRPEIWIAQELRRIGDEFNAYYARRVFLNNYQAAEDHPRMVILRLLRYIVRLVWRMH -n 50

如果您想为配体提供提示

python drug_generator.py -f bcl2.fasta -l COc1ccc(cc1)C(=O) -n 50

注意：如果您在Linux环境中运行，请用单引号（''）括起来配体的提示。
```
python drug_generator.py -f bcl2.fasta -l 'COc1ccc(cc1)C(=O)' -n 50
```

?如何引用这项工作

DrugGPT: A GPT-based Strategy for Designing Potential Ligands Targeting Specific Proteins

Yuesen Li, Chengyi Gao, Xin Song, Xiangyu Wang, Yungang Xu, Suxia Han

bioRxiv 2023.06.29.543848; doi: https://doi.org/10.1101/2023.06.29.543848

⚖许可证

GNU General Public License v3.0

作者:

sen88

数据集大小:

501.59 MB