数据集:

EMBO/SourceData

语言:

en

大小:

10K<n<100K

数字对象标识符:

10.57967/hf/0495

许可:

cc-by-4.0
英文

SourceData数据集

在出版领域中,用于机器学习和人工智能的最大注释的生物医学语料库。

SourceData是最大的生物医学NER和NEL注释数据集。它特别关注科学证据的核心:图表说明。它的独特之处还在于其真实世界的配置,因为它不会呈现孤立的句子,而是提供可以进一步使用全文、摘要或标题来丰富上下文的完整注释的图表说明。其目标是提取描述实验的自然实验性质。SourceData还通过标记实验中存在的生物实体之间的因果关系,为语料库中存在的每个生物医学实体分配实验角色,展示了其独特之处。

SourceData一致地注释了九种不同的生物实体(基因、蛋白质、细胞、组织、细胞器、物种、小分子和疾病)。它是第一个注释实验测定并标记生物实体在其上所扮演的角色的数据集。每个实体都与其相应的本体连接,以实现实体消歧和NEL。

引用我们的工作

@misc {embo_2023,
    author       = { Abreu-Vicente, J. \& Lemberger, T. },
    title        = { The SourceData dataset},
    year         = 2023,
    url          = { https://huggingface.co/datasets/EMBO/SourceData },
    doi          = { 10.57967/hf/0495 },
    publisher    = { Hugging Face }
}

@article {Liechti2017,
     author = {Liechti, Robin and George, Nancy and Götz, Lou and El-Gebali, Sara and Chasapi, Anastasia and Crespo, Isaac and Xenarios, Ioannis and Lemberger, Thomas},
     title = {SourceData - a semantic platform for curating and searching figures},
     year = {2017},
     volume = {14},
     number = {11},
     doi = {10.1038/nmeth.4471},
     URL = {https://doi.org/10.1038/nmeth.4471},
     eprint = {https://www.biorxiv.org/content/early/2016/06/20/058529.full.pdf},
     journal = {Nature Methods}
}

数据集用途

  from datasets import load_dataset
  # Load NER
  ds = load_dataset("EMBO/SourceData", "NER", version="1.0.0")
  # Load PANELIZATION
  ds = load_dataset("EMBO/SourceData", "PANELIZATION", version="1.0.0")
  # Load GENEPROD ROLES
  ds = load_dataset("EMBO/SourceData", "ROLES_GP", version="1.0.0")
  # Load SMALL MOLECULE ROLES
  ds = load_dataset("EMBO/SourceData", "ROLES_SM", version="1.0.0")
  # Load MULTI ROLES
  ds = load_dataset("EMBO/SourceData", "ROLES_MULTI", version="1.0.0")

支持的任务和排行榜

标签以 IOB2-style tags 提供。面板化:图表说明(或图表说明)通常由若干段组成,每个段都指称完整图表中的一个“面板”。面板往往代表使用一致的方法获得的结果,并显示可相互比较的数据点。面板化提供这些段的开始(B-PANEL_START),允许训练识别连续面板注释之间边界的模型。NER:对生物和化学实体进行标记。具体标记以下实体:

  • SMALL_MOLECULE:小分子
  • GENEPROD:基因产物(基因和蛋白质)
  • SUBCELLULAR:亚细胞组分
  • CELL_LINE:细胞系
  • CELL_TYPE:细胞类型
  • TISSUE:组织器官
  • ORGANISM:物种
  • DISEASE:疾病(参见限制)
  • EXP_ASSAY:实验测定 ROLES:生物医学实体在报告结果中所测试的因果假设方面的角色。标签为:
  • CONTROLLED_VAR:与实验变量相关且经过控制和有针对性干预的实体
  • MEASURED_VAR:与测量变量和测量对象相关的实体

对于实验角色,GENEPROD和SMALL_MOL分别生成,还有同时采用两者的ROLES_MULTI标签集。

语言

数据集中的文本为英文。

数据集结构

数据实例

数据字段

  • words:字符串列表,将文本分词为单词。
  • panel_id:示例所属图表说明在SourceData数据库中的ID。
  • label_ids:
    • entity_types:字符串列表,表示实体类型的IOB2标签;可能的值为["O", "I-SMALL_MOLECULE", "B-SMALL_MOLECULE", "I-GENEPROD", "B-GENEPROD", "I-SUBCELLULAR", "B-SUBCELLULAR", "I-CELL_LINE", "B-CELL_LINE", "I-CELL_TYPE", "B-CELL_TYPE", "I-TISSUE", "B-TISSUE", "I-ORGANISM", "B-ORGANISM", "I-EXP_ASSAY", "B-EXP_ASSAY"]
    • roles:字符串列表,表示实验角色的IOB2标签;值为["O", "I-CONTROLLED_VAR", "B-CONTROLLED_VAR", "I-MEASURED_VAR", "B-MEASURED_VAR"]
    • panel_start:字符串列表,表示面板开始的IOB2标签;值为["O", "B-PANEL_START"]
    • multi roles:有两个不同的标签集。labels类似于roles。is_category标记GENEPROD和SMALL_MOLECULE。

数据拆分

  • NER和ROLES
  DatasetDict({
      train: Dataset({
          features: ['words', 'labels', 'tag_mask', 'text'],
          num_rows: 55250
      })
      test: Dataset({
          features: ['words', 'labels', 'tag_mask', 'text'],
          num_rows: 6844
      })
      validation: Dataset({
          features: ['words', 'labels', 'tag_mask', 'text'],
          num_rows: 7951
      })
  })
  • PANELIZATION
  DatasetDict({
      train: Dataset({
          features: ['words', 'labels', 'tag_mask'],
          num_rows: 14655
      })
      test: Dataset({
          features: ['words', 'labels', 'tag_mask'],
          num_rows: 1871
      })
      validation: Dataset({
          features: ['words', 'labels', 'tag_mask'],
          num_rows: 2088
      })
  })

数据集创建

策划理由

该数据集旨在训练基于科学文献的知识图谱自动提取模型。该数据集可用于训练文本分割、命名实体识别和语义角色标注模型。

源数据

根据Liechti等人2017年的SourceData框架(Nature Methods, 2017, https://doi.org/10.1038/nmeth.4471 )对图表说明进行了注释。使用 https://curation.sourcedata.io 的策划工具将图表说明分割为面板说明,标记实体,分配实验角色并使用标准标识符进行规范化(在此数据集中不可用)。源数据于2021年1月21日从SourceData API( https://api.sourcedata.io )下载。

源语言制作人是谁?

示例是从细胞和分子生物学的科学论文的图表说明中提取的。

注释

注释过程

注释是由SourceData项目( https://sourcedata.embo.org )的专家策划者手动完成的。

注释员是谁?

SourceData项目的策划者。

个人信息和敏感信息

没有已知的个人信息和敏感信息。

使用数据的注意事项

数据集的社会影响

不适用。

偏见讨论

示例严重偏向细胞和分子生物学,并且丰富了在EMBO Press期刊( https://embopress.org )上发表的论文中的示例。

最近将疾病的标注添加到了数据集中。虽然它们出现了,但数量很少,并且在整个数据集中没有一致标记。我们建议通过过滤包含疾病的示例来使用疾病标签。

其他已知限制

[需要更多信息]

其他信息

数据集策划者

Thomas Lemberger, EMBO.Jorge Abreu Vicente, EMBO

许可信息

CC BY 4.0

引用信息

我们目前正在准备一篇介绍该数据集的论文,预计于2023年春季完成。在此期间,应引用以下论文。

  @article {Liechti2017,
      author = {Liechti, Robin and George, Nancy and Götz, Lou and El-Gebali, Sara and Chasapi, Anastasia and Crespo, Isaac and Xenarios, Ioannis and Lemberger, Thomas},
      title = {SourceData - a semantic platform for curating and searching figures},
      year = {2017},
    volume = {14},
    number = {11},
      doi = {10.1038/nmeth.4471},
      URL = {https://doi.org/10.1038/nmeth.4471},
      eprint = {https://www.biorxiv.org/content/early/2016/06/20/058529.full.pdf},
      journal = {Nature Methods}
  }

贡献

感谢 @tlemberger @drAbreu 添加了该数据集。