数据集:
bigbio/hprd50
HPRD50 是由 Human Protein Reference Database (HPRD) 引用的生物医学论文摘要的随机选取且手动标注的数据集。它以 XML 格式解析,将每个摘要拆分成句子,每个句子中可能包含实体和这些实体之间的相互作用。在这个特定的数据集中,实体全部都是蛋白质,因此相互作用都是蛋白质与蛋白质之间的相互作用。
此外,所有实体都被归一化到 HPRD 数据库。这些归一化的术语存储在源 XML 中的每个实体的 'type' 属性中。这意味着数据集可以确定例如 "Janus kinase 2" 和 "Jak2" 引用的是同一个归一化实体。
由于数据集包含实体和关系,因此非常适合命名实体识别和关系抽取。
@article{fundel2007relex, title={RelEx—Relation extraction using dependency parse trees}, author={Fundel, Katrin and K{"u}ffner, Robert and Zimmer, Ralf}, journal={Bioinformatics}, volume={23}, number={3}, pages={365--371}, year={2007}, publisher={Oxford University Press} }