数据集:

strombergnlp/x-stance

子任务:

fact-checking

语言:

de fr

计算机处理:

multilingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

crowdsourced

预印本库:

arxiv:2003.08385

许可:

mit
英文

X-Stance 数据集卡片

数据集摘要

X-Stance 数据集包含150多个政治问题,以及67k个候选人对这些问题的评论。这些评论部分为德语,部分为法语和意大利语。数据是从瑞士投票建议平台Smartvote中提取的。

语言

德语,法语/意大利语

数据集结构

数据实例

'train' 的一个例子如下:

{
    'id': '0', 
    'question': 'Eine Volksinitiative fordert, dass die Gesamtfläche der Bauzonen in der Schweiz für die nächsten 20 Jahre auf dem heutigen Stand begrenzt wird. Befürworten Sie dieses Anliegen?', 
    'comment': 'Eine fixe Grösse verbieten, ist das falsche Mittel', '
    'label': 0
}

数据字段

  • id: 字符串类型的特征。
  • question: 表达主张/话题的字符串。
  • comment: 要对其来源的立场进行分类的字符串。
  • label:
            0: "AGAINST",
            1: "FAVOR"

数据拆分

languages name instances
de train 33850
de validation 2871
de test 11891
fr train 11790
fr validation 1055
fr test 5814

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

MIT License

引用信息

@article{vamvas2020x,
  title={X-stance: A multilingual multi-target dataset for stance detection},
  author={Vamvas, Jannis and Sennrich, Rico},
  journal={arXiv preprint arXiv:2003.08385},
  year={2020}
}

贡献

感谢 mkonxd leondz 添加此数据集。