数据集:

bigbio/bioasq_2021_mesinesp

语言:

es

计算机处理:

monolingual

许可:

cc-by-4.0
英文

MESINESP 2021数据集卡片

MESINESP2的主要目标是促进实用的生物医学内容的语义索引工具在非英语语言中的开发。我们生成了一个手工标注的语料库,其中领域专家对一组科学文献、临床试验和专利摘要进行了标注。所有文档都使用DeCS描述词进行标记,DeCS描述词是由BIREME创建的一种结构化控制词汇,用于索引BvSalud上的科学出版物,BvSalud是西班牙最大的科学文献数据库,其中包含来自LILACS、MEDLINE、IBECS等数据库的记录。

BioASQ9的MESINESP轨道探索了将DeCS分配给不同类型生物医学文档的系统的效率。为此,我们根据文档类型将任务分为三个子轨道。然后,对于每一个子轨道,我们生成了一个注释语料库,并提供给参与的团队:

  • [子轨道1语料库] MESINESP-L - 科学文献:它包含来自Virtual Health Library(VHL)的LILACS和IBECS数据库中的所有西班牙记录,其摘要不能为空。
  • [子轨道2语料库] MESINESP-T- 临床试验:包括来自西班牙临床研究注册(REEC)的记录。REEC不提供BioASQ所需的标题/摘要结构的文档,因此我们根据使用REEC API抓取的数据内容构建了人工摘要。
  • [子轨道3语料库] MESINESP-P - 专利:该语料库包括从Google专利中提取的具有IPC代码"A61P"和"A61K31"的西班牙专利。此外,我们还提供了一组补充数据,如DeCS术语文件,参与者对任务背景集的预测的银标准以及从BSC NERs文档中提取的药物、疾病、症状和医疗程序实体。

引用信息

@conference {396,
    title = {Overview of BioASQ 2021-MESINESP track. Evaluation of
    advance hierarchical classification techniques for scientific
    literature, patents and clinical trials.},
    booktitle = {Proceedings of the 9th BioASQ Workshop
    A challenge on large-scale biomedical semantic indexing
    and question answering},
    year = {2021},
    url = {http://ceur-ws.org/Vol-2936/paper-11.pdf},
    author = {Gasco, Luis and Nentidis, Anastasios and Krithara, Anastasia
     and Estrada-Zavala, Darryl and Toshiyuki Murasaki, Renato and Primo-Pe{\~n}a,
     Elena and Bojo-Canales, Cristina and Paliouras, Georgios and Krallinger, Martin}
}