数据集:
civil_comments
此数据集中的评论来自 Civil Comments 平台的存档,该平台是一个独立新闻站点的评论插件。这些公共评论创建于2015年至2017年,并出现在世界范围内约50个英语新闻网站上。当 Civil Comments 在2017年关闭时,选择将公共评论以持久的方式提供在一个开放的存档中,以便进行将来的研究。原始数据在 figshare 上发布,包括公共评论文本、一些相关元数据,如文章 ID、时间戳和评论者生成的“礼貌性”标签,但不包括用户 ID。Jigsaw 通过添加有毒性和身份提及的其他标签扩展了此数据集。该数据集是 Jigsaw 在 Kaggle 挑战“Jigsaw 不良偏见毒性分类”中发布的数据的精确副本。该数据集以 CC0 许可发布,底层评论文本也是如此。
'validation' 的一个示例如下所示。
{ "identity_attack": 0.0, "insult": 0.0, "obscene": 0.0, "severe_toxicity": 0.0, "sexual_explicit": 0.0, "text": "The public test.", "threat": 0.0, "toxicity": 0.0 }
所有拆分的数据字段相同。
defaultname | train | validation | test |
---|---|---|---|
default | 1804874 | 97320 | 97320 |
此数据集的许可是 CC0 1.0 。
@article{DBLP:journals/corr/abs-1903-04561, author = {Daniel Borkan and Lucas Dixon and Jeffrey Sorensen and Nithum Thain and Lucy Vasserman}, title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text Classification}, journal = {CoRR}, volume = {abs/1903.04561}, year = {2019}, url = {http://arxiv.org/abs/1903.04561}, archivePrefix = {arXiv}, eprint = {1903.04561}, timestamp = {Sun, 31 Mar 2019 19:01:24 +0200}, biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561}, bibsource = {dblp computer science bibliography, https://dblp.org} }
感谢 @lewtun , @patrickvonplaten , @thomwolf 添加此数据集。