数据集:

civil_comments

语言:

en

预印本库:

arxiv:1903.04561

许可:

cc0-1.0
英文

"civil_comments" 数据集卡片

数据集概述

此数据集中的评论来自 Civil Comments 平台的存档,该平台是一个独立新闻站点的评论插件。这些公共评论创建于2015年至2017年,并出现在世界范围内约50个英语新闻网站上。当 Civil Comments 在2017年关闭时,选择将公共评论以持久的方式提供在一个开放的存档中,以便进行将来的研究。原始数据在 figshare 上发布,包括公共评论文本、一些相关元数据,如文章 ID、时间戳和评论者生成的“礼貌性”标签,但不包括用户 ID。Jigsaw 通过添加有毒性和身份提及的其他标签扩展了此数据集。该数据集是 Jigsaw 在 Kaggle 挑战“Jigsaw 不良偏见毒性分类”中发布的数据的精确副本。该数据集以 CC0 许可发布,底层评论文本也是如此。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

default
  • 下载的数据集文件大小:414.95 MB
  • 生成的数据集大小:661.23 MB
  • 使用的磁盘总量:1.08 GB

'validation' 的一个示例如下所示。

{
    "identity_attack": 0.0,
    "insult": 0.0,
    "obscene": 0.0,
    "severe_toxicity": 0.0,
    "sexual_explicit": 0.0,
    "text": "The public test.",
    "threat": 0.0,
    "toxicity": 0.0
}

数据字段

所有拆分的数据字段相同。

default
  • text: 字符串类型的特征。
  • toxicity: float32 类型的特征。
  • severe_toxicity: float32 类型的特征。
  • obscene: float32 类型的特征。
  • threat: float32 类型的特征。
  • insult: float32 类型的特征。
  • identity_attack: float32 类型的特征。
  • sexual_explicit: float32 类型的特征。

数据拆分

name train validation test
default 1804874 97320 97320

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和标准化

More Information Needed

源语言制作者是谁?

More Information Needed

注释

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

此数据集的许可是 CC0 1.0

引用信息

@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

贡献

感谢 @lewtun @patrickvonplaten @thomwolf 添加此数据集。