数据集:

bigbio/hprd50

语言:

en

计算机处理:

monolingual
英文

HPRD50 数据集卡片

HPRD50 是由 Human Protein Reference Database (HPRD) 引用的生物医学论文摘要的随机选取且手动标注的数据集。它以 XML 格式解析,将每个摘要拆分成句子,每个句子中可能包含实体和这些实体之间的相互作用。在这个特定的数据集中,实体全部都是蛋白质,因此相互作用都是蛋白质与蛋白质之间的相互作用。

此外,所有实体都被归一化到 HPRD 数据库。这些归一化的术语存储在源 XML 中的每个实体的 'type' 属性中。这意味着数据集可以确定例如 "Janus kinase 2" 和 "Jak2" 引用的是同一个归一化实体。

由于数据集包含实体和关系,因此非常适合命名实体识别和关系抽取。

引用信息

@article{fundel2007relex,
  title={RelEx—Relation extraction using dependency parse trees},
  author={Fundel, Katrin and K{"u}ffner, Robert and Zimmer, Ralf},
  journal={Bioinformatics},
  volume={23},
  number={3},
  pages={365--371},
  year={2007},
  publisher={Oxford University Press}
}