数据集:

zjunlp/Mol-Instructions

英文

? Mol-Instructions

一个针对大型语言模型的开放式大规模生物分子指令数据集。

有关更多详细信息,请参阅我们的详细说明

? 内容

  • 概述
    • 数据统计
    • 数据构建
    • 数据发布
  • 任务
    • 分子导向
    • 蛋白质导向
    • 生物分子文本
  • 演示
    • 模型权重发布
    • 模型使用指南
    • 常见问题
  • 注意事项
    • 使用和许可
    • 限制
  • 关于
    • 参考资料
    • 致谢

1. 概述

? 1.1 数据统计

Mol-Instructions 包括三个主要组成部分:

  • ? 分子导向指令:该组件深入探讨小分子的世界,强调其固有属性和行为。它揭示了多样化化学反应和分子设计的基本挑战,包含6个任务的148.4K指令。
  • ? 蛋白质导向指令:以生物科学为基础,该组件提供了5个不同类别任务的505K指令。这些任务旨在预测蛋白质的结构、功能和活性,并根据文本指导实现蛋白质设计。
  • ? 生物分子文本指令:主要设计用于生物信息学和化学信息学领域的NLP任务,通过53K指令表示六个信息提取和问答任务。

?️ 1.2 数据构建

  • ?️ 人工智能与人类协作任务描述创建:在真实应用中,任务指令必须能够适应人类需求和查询的多样性和动态性。我们通过使用每个任务的明确的人工制作描述作为输入来模拟这种多样性,然后将其用于GPT-3.5-turbo。
  • ? 从现有数据中提取信息:生物分子数据通常需要专科实验室实验和专家分析,因此权威和认可的生物化学数据库是我们数据的理想来源。通过合适的处理,这些资源让我们能够提取所需的指导数据。
  • ? 将生物数据基于模板转换为文本格式:为了将这些结构化注释转化为文本格式,我们设计了各种各样的模板。每个生成的基于文本的注释都用作蛋白质设计的指南。
  • ✅ 质量控制:为了加快模型生成准确生物分子的能力,我们对生物分子数据进行严格的质量控制措施。

? 1.3 数据发布

我们在 Hugging Face 上发布了该数据集,网址为 zjunlp/Mol-Instructions

2. 任务

? 2.1 分子导向

分子描述生成
  • 请提供关于以下分子的一些详细信息: [C][C][C][C][C][C][C][C][C][C][C][C][C][C][C][C][C][C][=Branch1][C][=O][O][C@H1][Branch2][Ring1][=Branch1][C][O][C][=Branch1][C][=O][C][C][C][C][C][C][C][C][C][C][C][C][C][C][C][C][O][P][=Branch1][C][=O][Branch1][C][O][O][C][C@@H1][Branch1][=Branch1][C][=Branch1][C][=O][O][N]

    The molecule is a 3-sn-phosphatidyl-L-serine in which the phosphatidyl acyl groups at positions 1 and 2 are specified as stearoyl and arachidonoyl respectively. 
    It is functionally related to an arachidonic acid and an octadecanoic acid.
    
基于描述的分子设计
  • 根据给定的结构创建一个分子:该分子是一个原始芳胺,其中氨基功能团代替了苯环中的一个氢原子。它是一个原始芳胺,也是苯胺的成员。

    [N][C][=C][C][=C][C][=C][Ring1][=Branch1]
    
正向反应预测
  • 在给定的反应物和试剂的情况下,提出一个可能的产物:[O][=N+1][Branch1][C][O-1][C][=C][N][=C][Branch1][C][Cl][C][Branch1][C][I][=C][Ring1][Branch2].[Fe]

    [N][C][=C][N][=C][Branch1][C][Cl][C][Branch1][C][I][=C][Ring1][Branch2]
    
逆向合成
  • 请提供用于合成所提供产物的潜在反应物:[C][=C][C][C][N][C][=Branch1][C][=O][O][C][Branch1][C][C][Branch1][C][C][C]

    [C][=C][C][C][N].[C][C][Branch1][C][C][Branch1][C][C][O][C][=Branch1][C][=O][O][C][=Branch1][C][=O][O][C][Branch1][C][C][Branch1][C][C][C]
    
试剂预测
  • 基于以下化学反应,请提供可能的试剂:[C][C][=C][C][=C][Branch1][C][N][C][=N][Ring1][#Branch1].[O][=C][Branch1][C][Cl][C][Cl] >> [C][C][=C][C][=C][Branch1][Branch2][N][C][=Branch1][C][=O][C][Cl][C][=N][Ring1][O]

    [C][C][C][O][C][Ring1][Branch1].[C][C][N][Branch1][Ring1][C][C][C][C].[O]
    
属性预测
  • 请提供该分子的HOMO能量值:[C][C][O][C][C][Branch1][C][C][C][Branch1][C][C][C]

    -0.2482
    

? 2.2 蛋白质导向

蛋白质设计
  • 设计一个蛋白质序列,展示所需的活性和特异性。
  • 该蛋白质在所需环境中需要Mg(2+)起到功能作用。
  • (6S)-NADPHX结合位点应位于蛋白质中对配体可达的区域。
  • 设计的蛋白质应具有ATP结合、NADPHX顺式异构酶活性、金属离子结合、ADP依赖的NAD(P)H水合脱水酶活性,以促进尼古丁酰胺核苷酸代谢过程。
  • 对于一般功能,蛋白质需要满足催化S形和R形NAD(P)HX的异构化,该物质是酶促或热依赖水合的结果。
  • MSNELVLSREQVRRVDQRAIEAYGVPGIVLMENAGRGAAEIIRAACPSAQRVLIACGPGNNGGDGFVIARHLANAGWMVELLLACPADRITGDAQGNHEIIRRMNLPCAVMADARDLEAANDRFATADVIVDALLGTGASGPPREPIASLIRAINEAHRRVSAQPAPSVFAVDIPSGLDCDTGEAANPTVRADHTITFVARKIGFRNPAARDLLGRVHVVDIGAPRAAIQDALTGKSG
    
    催化活性预测
    • 请评估以下蛋白质序列,并解释酶的催化活性,包括其促进的化学反应:MDKVAVAGFLPEELCASLSLSPSFRGNQIFQWIGKGVDSFDAMTNLSAELRASLAEKAILRSTRVSDVLKADDGTVKLQIQTEDDLAVETVLLTDKAARKTACVSCQAGCAMGCAFCKTGTLGLARNLSAAEIVEQFLYLEKHAGALDNIVFMGMGEPLLNLDALRKAIAVLTDKRGRNLSSRRITVSTVGIVSGIYDLANNGPDVRLAVSLTTADETLRRELMPASLTNPLSDLRQAISYYIEKTGKRVTLEAVLLSGKNTSEKNADSLIAFAKGLDVHVNLIPWNPVEGLSFVTPDPEETAQFVSRLEKGGLNVTLRMHRGKSISGACGQLGKTNPYA

      Based on the provided protein sequence, the enzyme appears to facilitate the chemical reaction: adenosine(37) in tRNA + 2 reduced [2Fe-2S]-[ferredoxin] + 2 S- adenosyl-L-methionine = 2-methyladenosine(37) in tRNA + 5'-   deoxyadenosine + L-methionine + 2 oxidized [2Fe-2S]-[ferredoxin] + S- adenosyl-L-homocysteine.
      
    蛋白功能预测
    • 分析以下氨基酸序列,确定生成蛋白质的功能、亚细胞定位以及可能参与的任何生物过程:MNGTVNASAPSKMSEVAVERLSNDKALKVIFVLGGPGSGKGTQCAKIAKHFGFTHLSVGDLLRAEINSGSKNGTMIESMINEGKIVRSEVTIKLLQRAMHESGNDKFLIDGFPRNEENRAAFENLEKIEPEFVLFFDCPMEEMERRILNRNQGRDDDKMETIRKRFKVFIESTLPVIEFYNLKGKLYKIDACKPADEVFEDVKAIFSRFRAKEDSSQQTNICTAKRFELVMCLIKRLFREIKRMWSSFFCKAL

      The protein characterized by the amino acid sequence demonstrates ATP binding, cytidylate kinase activity, uridylate kinase activity and is implicated in the 'de novo' pyrimidine nucleobase biosynthetic process, phosphorylation, pyrimidine nucleotide biosynthetic process. Its subcellular localization is primarily within the cytoplasm, nucleus.
      
    功能描述生成
    • 检查给定的蛋白质序列,并简要介绍其属性:MKIVLASNNQGKLAELKAMLAPLGVQLLRQAELGIPEAAEPFRTFVENALAKARHASALSGLPALADDAGLCVEAFGGLPGVDTAFYAVQFGYAKGDANNVKALLAQMAGITDRRAALVSTLVAVRSAEDPEPLIACGRVAGEVALEPMGSNGFGFDPVMFIPEFGQTFAQLPVEVKNANSHRGKATRQMMALMRERWIT

      A concise description of the protein with the specified amino acid sequence includes: Pyrophosphatase that catalyzes the hydrolysis of nucleoside triphosphates to their monophosphate derivatives, with a high preference for the non-canonical purine nucleotides XTP (xanthosine triphosphate), dITP (deoxyinosine triphosphate) and ITP. Seems to function as a house-cleaning enzyme that removes non-canonical purine nucleotides from the nucleotide pool, thus preventing their incorporation into DNA/RNA and avoiding chromosomal lesions.
      
    域/模体预测
    • 给定此蛋白质序列,您能否确定它可能包含的常见蛋白质模体或基因组域?MANTKYIFITGGVVSSLGKGIAAASIGALLESRGLSVSLIKVDPYINVDPGTMSPFQHGEVFVTEDGTETDLDLGHYERFVRFKASKKNNFTAGKVYETVIRNERKGNYLGGTVQVIPHITNEIKKRIKKGGQNKDIAIVEVGGTVGDIESQPFVEALRQMALELPNSSWAFVHLTLVPFINASGELKTKPTQHSVKELRSLGISPDVLVCRSEQELPKDEKNKIALFCSVPAKSVISMHDVDTVYSIPILLNKQKVDDTILKKLNLKIKKPNLNDWKRVVKAKLLPEKEVNVSFVGKYTELKDSYKSINEALEHAGIQNKAKVNINFVEAEQITSQNVRKVLKKSDAILVPGGFGERGIEGMILACKYARENNVPYLGICLGMQIAIIEYARNVLKLKSANSTEFDSSTKFPVIGLITEWSDISGKKEKRTKNSDLGGTMRLGGQVCKLKKKSNSYKMYKKSEIIERHRHRYEVNPNYKDKMIEQGLDVVGTSIDGKLVEMIELPSHKWFLACQFHPEFTSNPRDGHPIFNSYIKSTITK

      Our predictive analysis of the given protein sequence reveals possible domains or motifs. These include: Glutamine amidotransferase, CTP synthase N-terminal domains.
      

    ? 2.3 生物分子文本

    化学实体识别
    • 在以下内容中找到并列出所有化学实体的实例: "Both the control and caramiphen groups with double cannulas had significantly shorter latencies to seizure onset than the corresponding groups with single cannula."

      caramiphen
      
    化学疾病相互作用提取
    • 您提供了一组临床试验摘要。从摘要中提取化学物质-疾病关系,并以(主体, 客体)的格式呈现您的研究结果:"Eating disorders and the associated behavioural problems and drug abuse are uncommon in pregnancy. When they do occur they are often unrecognized because of denial but when significant may pose a risk to both the mother and her fetus. This case illustrates a number of problems that may be encountered in women with eating disorders in pregnancy, including prolonged and recurrent metabolic disturbances and diuretic abuse. In particular it illustrates the derangements of thyroid function seen in pregnant women with eating disorders and reminds us that when a cause for thyrotoxicosis remains obscure, thyroxine abuse should be considered and explored."

      (thyroxine, thyrotoxicosis) 
      
    化学-蛋白质相互作用提取
    • 您的任务是从所提供的文本中提取主体和客体实体,并建立相应的关系三元组。请将您的答案格式化为(主体, 关系, 客体):"Opioid receptors are the membrane proteins that mediate the pain-relieving effect of opioid drugs, such as morphine and fentanyl as well as endogenous opioid peptides enkephalins and endorphins. Using cDNAs for the mu and the kappa opioid receptors, we mapped the chromosomal locations of their genes in mouse. Multilocus cross analysis located the mu receptor gene Oprm on Chr 10 and the kappa receptor gene Oprk1 on Chr 1. Both genes are near centromere, with no markers more centromeric. These data indicate that the two opioid receptors are different gene products, ruling out the possibility that they may be differential splicing products from the same gene."

      (morphine, regulator, Opioid receptors), (fentanyl, regulator, Opioid receptors)
      
    选择题
    • 以下哪种情况不显示多因素遗传?以下哪个是正确的选择?(A) 幽门狭窄症 (B) 精神分裂症 (C) 脊柱裂(神经管缺陷) (D) 马凡综合征

      The final answer is (D).
      
    是非题
    • 喂养管插入及其时间安排是否改善生存率?

      No, neither insertion of PEG tubes nor timing of insertion affect survival.
      
    开放式问题
    • 什么病毒会引起慢性疾病?

      Hepatitis C virus (HCV).
      

    3. 演示

    ? 3.1 模型权重发布

    我们在 Hugging Face 上发布了模型权重,网址如下:

    ? 3.2 模型使用指南

    关于此部分,请参考我们的详细说明。

    我们还提供了基于 Gradio 的Web版本演示。使用之前,您需要先下载该存储库:

    >> git clone https://github.com/zjunlp/Mol-Instruction
    >> cd demo
    

    步骤1:运行以下命令安装Gradio:pip install gradio。

    步骤2:在 generate.sh 文件中指定参数。

    >> CUDA_VISIBLE_DEVICES=0 python generate.py \
        --CLI False\
        --protein False\
        --load_8bit \
        --base_model $BASE_MODEL_PATH \
        --share_gradio True\
        --lora_weights $FINETUNED_MODEL_PATH \
    

    对于在分子导向和生物分子文本指令上进行微调的模型,请将$FINETUNED_MODEL_PATH设置为'zjunlp/llama-molinst-molecule-7b'或'zjunlp/llama-molinst-biotext-7b'。

    对于在蛋白质导向指令上进行微调的模型,您需要执行额外的步骤,如 this folder 所述。

    步骤3:运行存储库中的 generate.sh 文件:

    >> sh generate.sh
    

    我们提供了两种方法:一是命令行交互,二是基于Web的交互,提供了更大的灵活性。

  • 使用以下命令进行基于Web的交互:
  • >> python generate.py
    

    程序将运行一个Web服务器并输出一个地址。在浏览器中打开该地址以使用。

  • 使用以下命令进行命令行交互:
  • >> python generate.py --CLI True
    

    缺点是无法动态更改解码参数。

    ? 3.3 FAQ

    • 问题:如果模型在解码过程中遇到并重复输入该情况该如何处理?

      答案:考虑减少最大令牌的值。

    • 问题:如果模型在解码过程中遇到�该如何处理?

      答案:如果该符号出现在已解码句子的中间,我们建议更改输入。如果它出现在句子末尾,您可以通过增加输出长度来解决此问题。

    • 问题:为什么尽管使用相同的解码参数,结果仍然不同?

      答案:这可能是因为您启用了do_sample=True。另一个因素可能是任务执行的顺序。一个有用的方法是使用for循环生成多个具有相同解码参数的输出,以便您可以注意每个输出中的变化。

    • 问题:导致不满意的答案质量的原因是什么?

      答案:修改解码参数可能有助于提高提取或回答的质量。

    4. 注意事项

    ? 4.1. 使用和许可

    请注意,Mol-Instructions 的所有数据和模型权重仅用于研究目的。伴随的数据集采用CC BY 4.0许可,仅允许非商业使用。

    我们强烈要求所有用户在使用我们的数据集时始终遵守最高的伦理标准,包括在他们的研究中保持公平、透明和负责任。严禁使用数据集可能导致危害或对社会造成损害的方式。

    在数据集维护方面,我们承诺提供必要的维护,以确保数据集在不断发展的研究环境中的持续相关性和可用性。这项承诺包括定期更新、错误检查和根据领域进展和用户反馈进行修订。

    ❗️ 4.2. 限制

    通过指令调整获得的模型的当前状态仅作为初步演示。它的能力仍然有限,无法处理真实世界的产品级任务。此外,还有丰富的指令数据未收集和利用。

    5. 关于

    ? 5.1 参考资料

    如果您使用了我们的存储库,请引用以下相关论文:
    @article{molinst,
      author = {Yin Fang, Xiaozhuan Liang, Ningyu Zhang, Kangwei Liu, Rui Huang, Zhuo Chen, Xiaohui Fan and Huajun Chen},
      title = {Mol-Instructions: A Large-Scale Biomolecular Instruction Dataset for Large Language Models},
      journal = {arXiv preprint}
      year = {2023},
    }
    

    ??‍? 5.2 致谢

    我们感谢 LLaMA Huggingface Transformers Llama Alpaca Alpaca-LoRA Chatbot Service 以及其他相关作品对他们的开源贡献。