英文

DrugGPT

A generative drug design model based on GPT2.

?介绍

DrugGPT是基于GPT结构的生成药物设计策略,旨在通过使用自然语言处理技术为药物设计带来创新。

该项目将GPT模型应用于化学空间的探索,以发现具有特定蛋白质结合能力的新分子。

DrugGPT通过在高达180万条蛋白质-配体结合数据上进行训练,提供了一种快速高效的药物候选分子生成方法。

?部署

  • 克隆
    git clone https://github.com/LIYUESEN/druggpt.git
    cd druggpt
    
    或者您可以访问我们的 GitHub repo ,然后点击“Code > Download ZIP”来下载这个仓库。
  • 创建虚拟环境
    conda create -n druggpt python=3.7
    conda activate druggpt
    
  • 下载Python依赖
    pip install datasets transformers scipy scikit-learn
    pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
    conda install -c openbabel openbabel
    
  • ?如何使用

    使用 drug_generator.py

    必需参数:

    • -p | --pro_seq:输入蛋白质氨基酸序列。

    • -f | --fasta:输入一个FASTA文件。

      只能指定-p和-f中的一个。

    • -l | --ligand_prompt:输入一个配体提示。

    • -e | --empty_input:启用直接生成模式。

    • -n | --number:至少生成多少个分子。

    • -d | --device:要使用的硬件设备。默认为'cuda'。

    • -o | --output:生成分子的输出目录。默认为'./ligand_output/'。

    • -b | --batch_size:每批生成多少个分子。如果RAM较低,请尝试减小此值。默认为32。

    ?示例用法

    • 如果您想输入一个蛋白质FASTA文件

      python drug_generator.py -f bcl2.fasta -n 50
      
    • 如果您想输入蛋白质的氨基酸序列

      python drug_generator.py -p MAKQPSDVSSECDREGRQLQPAERPPQLRPGAPTSLQTEPQGNPEGNHGGEGDSCPHGSPQGPLAPPASPGPFATRSPLFIFMRRSSLLSRSSSGYFSFDTDRSPAPMSCDKSTQTPSPPCQAFNHYLSAMASMRQAEPADMRPEIWIAQELRRIGDEFNAYYARRVFLNNYQAAEDHPRMVILRLLRYIVRLVWRMH -n 50
      
    • 如果您想为配体提供提示

      python drug_generator.py -f bcl2.fasta -l COc1ccc(cc1)C(=O) -n 50
      
    • 注意:如果您在Linux环境中运行,请用单引号('')括起来配体的提示。

      python drug_generator.py -f bcl2.fasta -l 'COc1ccc(cc1)C(=O)' -n 50
      

    ?如何引用这项工作

    DrugGPT: A GPT-based Strategy for Designing Potential Ligands Targeting Specific Proteins

    Yuesen Li, Chengyi Gao, Xin Song, Xiangyu Wang, Yungang Xu, Suxia Han

    bioRxiv 2023.06.29.543848; doi: https://doi.org/10.1101/2023.06.29.543848

    ⚖许可证

    GNU General Public License v3.0