数据集:
allenai/scico
SciCo 包含上下文中的提及簇和它们之间的层次结构。该语料库来自计算机科学论文,其中的概念提及方法和来自计算机科学各领域的任务。科学概念存在显著挑战:它们通常采用多样的形式(例如,类条件图像合成和分类图像生成)或具有歧义(例如,AI领域和系统研究中的网络架构)。为了构建 SciCo,我们采用了三种资源进行了新的候选生成方法的开发:低覆盖率知识库( https://paperswithcode.com/ )、噪声上义词提取器和策划的候选项。
数据集中的文本为英文。
Train | Validation | Test | |
---|---|---|---|
Topic | 221 | 100 | 200 |
Documents | 9013 | 4120 | 8237 |
Mentions | 10925 | 4874 | 10424 |
Clusters | 4080 | 1867 | 3711 |
Relations | 2514 | 1747 | 2379 |
该数据集最初由Arie Cattan、Sophie Johnson、Daniel Weld、Ido Dagan、Iz Beltagy、Doug Downey和Tom Hope创建,Arie在Allen Institute of Artificial Intelligence实习期间创建了该数据集。
该数据集以 Apache License 2.0 发布。
@inproceedings{ cattan2021scico, title={SciCo: Hierarchical Cross-Document Coreference for Scientific Concepts}, author={Arie Cattan and Sophie Johnson and Daniel S. Weld and Ido Dagan and Iz Beltagy and Doug Downey and Tom Hope}, booktitle={3rd Conference on Automated Knowledge Base Construction}, year={2021}, url={https://openreview.net/forum?id=OFLbgUP04nC} }
感谢 @ariecattan 添加了此数据集。