数据集:

allenai/scicite

英文

"scicite" 数据集卡

数据集概要

这是一个用于对学术论文中的引用意图进行分类的数据集。每个 Json 对象的主要引用意图标签由 labelkey 指定,而引用上下文则在 context 键中指定。示例:{'string': 'In chacma baboons, male-infant relationships can be linked to both formation of friendships and paternity success [30,31].', 'sectionName': 'Introduction', 'label': 'background', 'citingPaperId': '7a6b2d4b405439', 'citedPaperId': '9d1abadc55b5e0', ...}您可以使用提供的 Semantic Scholar API( https://api.semanticscholar.org/ )获得关于论文的完整信息。标签有:Method(方法)、Background(背景)、Result(结果)。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

默认
  • 下载的数据集文件大小:22.12 MB
  • 生成的数据集大小:4.91 MB
  • 总计使用的磁盘空间量:27.02 MB

'validation' 的一个示例如下所示。

{
    "citeEnd": 68,
    "citeStart": 64,
    "citedPaperId": "5e413c7872f5df231bf4a4f694504384560e98ca",
    "citingPaperId": "8f1fbe460a901d994e9b81d69f77bfbe32719f4c",
    "excerpt_index": 0,
    "id": "8f1fbe460a901d994e9b81d69f77bfbe32719f4c>5e413c7872f5df231bf4a4f694504384560e98ca",
    "isKeyCitation": false,
    "label": 2,
    "label2": 0,
    "label2_confidence": 0.0,
    "label_confidence": 0.0,
    "sectionName": "Discussion",
    "source": 4,
    "string": "These results are in contrast with the findings of Santos et al.(16), who reported a significant association between low sedentary time and healthy CVF among Portuguese"
}

数据字段

所有拆分中的数据字段相同。

默认
  • string: 一个字符串特征。
  • sectionName: 一个字符串特征。
  • label: 一个分类标签,可能的值包括 method(0)、background(1)、result(2)。
  • citingPaperId: 一个字符串特征。
  • citedPaperId: 一个字符串特征。
  • excerpt_index: 一个 int32 特征。
  • isKeyCitation: 一个布尔特征。
  • label2: 一个分类标签,可能的值包括 supportive(0)、not_supportive(1)、cant_determine(2)、none(3)。
  • citeEnd: 一个 int64 特征。
  • citeStart: 一个 int64 特征。
  • source: 一个分类标签,可能的值包括 properNoun(0)、andPhrase(1)、acronym(2)、etAlPhrase(3)、explicit(4)。
  • label_confidence: 一个 float32 特征。
  • label2_confidence: 一个 float32 特征。
  • id: 一个字符串特征。

数据拆分

name train validation test
default 8194 916 1859

数据集创建

策划原理

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

谁是源语言的生成者?

More Information Needed

注释

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据时的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@inproceedings{cohan-etal-2019-structural,
    title = "Structural Scaffolds for Citation Intent Classification in Scientific Publications",
    author = "Cohan, Arman  and
      Ammar, Waleed  and
      van Zuylen, Madeleine  and
      Cady, Field",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1361",
    doi = "10.18653/v1/N19-1361",
    pages = "3586--3596",
}

贡献者

感谢 @lewtun @patrickvonplaten @mariamabarham @thomwolf 添加此数据集。