数据集:
EMBO/SourceData
在出版领域中,用于机器学习和人工智能的最大注释的生物医学语料库。
SourceData是最大的生物医学NER和NEL注释数据集。它特别关注科学证据的核心:图表说明。它的独特之处还在于其真实世界的配置,因为它不会呈现孤立的句子,而是提供可以进一步使用全文、摘要或标题来丰富上下文的完整注释的图表说明。其目标是提取描述实验的自然实验性质。SourceData还通过标记实验中存在的生物实体之间的因果关系,为语料库中存在的每个生物医学实体分配实验角色,展示了其独特之处。
SourceData一致地注释了九种不同的生物实体(基因、蛋白质、细胞、组织、细胞器、物种、小分子和疾病)。它是第一个注释实验测定并标记生物实体在其上所扮演的角色的数据集。每个实体都与其相应的本体连接,以实现实体消歧和NEL。
@misc {embo_2023, author = { Abreu-Vicente, J. \& Lemberger, T. }, title = { The SourceData dataset}, year = 2023, url = { https://huggingface.co/datasets/EMBO/SourceData }, doi = { 10.57967/hf/0495 }, publisher = { Hugging Face } } @article {Liechti2017, author = {Liechti, Robin and George, Nancy and Götz, Lou and El-Gebali, Sara and Chasapi, Anastasia and Crespo, Isaac and Xenarios, Ioannis and Lemberger, Thomas}, title = {SourceData - a semantic platform for curating and searching figures}, year = {2017}, volume = {14}, number = {11}, doi = {10.1038/nmeth.4471}, URL = {https://doi.org/10.1038/nmeth.4471}, eprint = {https://www.biorxiv.org/content/early/2016/06/20/058529.full.pdf}, journal = {Nature Methods} }
from datasets import load_dataset # Load NER ds = load_dataset("EMBO/SourceData", "NER", version="1.0.0") # Load PANELIZATION ds = load_dataset("EMBO/SourceData", "PANELIZATION", version="1.0.0") # Load GENEPROD ROLES ds = load_dataset("EMBO/SourceData", "ROLES_GP", version="1.0.0") # Load SMALL MOLECULE ROLES ds = load_dataset("EMBO/SourceData", "ROLES_SM", version="1.0.0") # Load MULTI ROLES ds = load_dataset("EMBO/SourceData", "ROLES_MULTI", version="1.0.0")
标签以 IOB2-style tags 提供。面板化:图表说明(或图表说明)通常由若干段组成,每个段都指称完整图表中的一个“面板”。面板往往代表使用一致的方法获得的结果,并显示可相互比较的数据点。面板化提供这些段的开始(B-PANEL_START),允许训练识别连续面板注释之间边界的模型。NER:对生物和化学实体进行标记。具体标记以下实体:
对于实验角色,GENEPROD和SMALL_MOL分别生成,还有同时采用两者的ROLES_MULTI标签集。
数据集中的文本为英文。
DatasetDict({ train: Dataset({ features: ['words', 'labels', 'tag_mask', 'text'], num_rows: 55250 }) test: Dataset({ features: ['words', 'labels', 'tag_mask', 'text'], num_rows: 6844 }) validation: Dataset({ features: ['words', 'labels', 'tag_mask', 'text'], num_rows: 7951 }) })
DatasetDict({ train: Dataset({ features: ['words', 'labels', 'tag_mask'], num_rows: 14655 }) test: Dataset({ features: ['words', 'labels', 'tag_mask'], num_rows: 1871 }) validation: Dataset({ features: ['words', 'labels', 'tag_mask'], num_rows: 2088 }) })
该数据集旨在训练基于科学文献的知识图谱自动提取模型。该数据集可用于训练文本分割、命名实体识别和语义角色标注模型。
根据Liechti等人2017年的SourceData框架(Nature Methods, 2017, https://doi.org/10.1038/nmeth.4471 )对图表说明进行了注释。使用 https://curation.sourcedata.io 的策划工具将图表说明分割为面板说明,标记实体,分配实验角色并使用标准标识符进行规范化(在此数据集中不可用)。源数据于2021年1月21日从SourceData API( https://api.sourcedata.io )下载。
源语言制作人是谁?示例是从细胞和分子生物学的科学论文的图表说明中提取的。
注释是由SourceData项目( https://sourcedata.embo.org )的专家策划者手动完成的。
注释员是谁?SourceData项目的策划者。
没有已知的个人信息和敏感信息。
不适用。
示例严重偏向细胞和分子生物学,并且丰富了在EMBO Press期刊( https://embopress.org )上发表的论文中的示例。
最近将疾病的标注添加到了数据集中。虽然它们出现了,但数量很少,并且在整个数据集中没有一致标记。我们建议通过过滤包含疾病的示例来使用疾病标签。
[需要更多信息]
Thomas Lemberger, EMBO.Jorge Abreu Vicente, EMBO
CC BY 4.0
我们目前正在准备一篇介绍该数据集的论文,预计于2023年春季完成。在此期间,应引用以下论文。
@article {Liechti2017, author = {Liechti, Robin and George, Nancy and Götz, Lou and El-Gebali, Sara and Chasapi, Anastasia and Crespo, Isaac and Xenarios, Ioannis and Lemberger, Thomas}, title = {SourceData - a semantic platform for curating and searching figures}, year = {2017}, volume = {14}, number = {11}, doi = {10.1038/nmeth.4471}, URL = {https://doi.org/10.1038/nmeth.4471}, eprint = {https://www.biorxiv.org/content/early/2016/06/20/058529.full.pdf}, journal = {Nature Methods} }
感谢 @tlemberger 和 @drAbreu 添加了该数据集。