数据集:

IlyaGusev/headline_cause

语言:

ru en

计算机处理:

multilingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:2108.12626

许可:

cc0-1.0
英文

HeadlineCause数据集卡片

数据集摘要

该数据集用于检测新闻标题对之间隐含的因果关系。该数据集包括来自英文新闻的5000多对标题和来自俄文新闻的9000多对标题,并通过众包进行了标注。这些标题对从完全无关或属于同一主题到包含因果关系和驳斥关系的范围内。

使用方式

俄文入门任务加载:

from datasets import load_dataset
dataset = load_dataset("IlyaGusev/headline_cause", "ru_simple")

支持的任务和领域

[需要更多信息]

语言

该数据集由俄文和英文两部分组成。

数据集结构

数据实例

每个数据实例中都有两个标题的URL、标题和时间戳。标签在三个字段中呈现。'Result'字段是一个文本标签,'label'字段是一个数值标签,'agreement'字段显示注释者之间的多数票一致性。其他信息包括实例ID和两篇文章之间的链接是否存在。

{
    'left_url': 'https://www.kommersant.ru/doc/4347456',
    'right_url': 'https://tass.ru/kosmos/8488527',
    'left_title': 'NASA: информация об отказе сотрудничать с Россией по освоению Луны некорректна',
    'right_title': 'NASA назвало некорректными сообщения о нежелании США включать РФ в соглашение по Луне',
    'left_timestamp': datetime.datetime(2020, 5, 15, 19, 46, 20),
    'right_timestamp': datetime.datetime(2020, 5, 15, 19, 21, 36),
    'label': 0,
    'result': 'not_cause',
    'agreement': 1.0,
    'id': 'ru_tg_101',
    'has_link': True
}

数据集划分

Dataset Split Number of Instances
ru_simple train 7,641
validation 955
test 957
en_simple train 4,332
validation 542
test 542
ru_full train 5,713
validation 715
test 715
en_full train 2,009
validation 251
test 252

数据集创建

策划理由

[需要更多信息]

源数据

数据收集和归一化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

注释过程

每个候选标题对都使用 Yandex Toloka 进行了注释,这是一个众包平台。任务是确定两个标题A和B之间的关系。有七种可能的选项:标题几乎相同,A导致B,B导致A,A驳斥B,B驳斥A,A以另一种方式与B关联,A与B无关。俄文新闻的注释指南是俄文的,英文新闻的注释指南是英文的。

指南:

每个对子有十个工人进行注释。总计注释预算为870美元,参与者的预计时薪为45美分。注释管理是半自动的。脚本可以在 Github repository 中找到。

注释者是谁?

俄文部分有457名工人进行了注释,英文部分有180名工人进行了注释。

个人和敏感信息

数据集没有进行匿名处理,因此数据集中可能会包含个人姓名。数据集中不包含有关原始作者的信息。除了平台工作者ID之外,不包含有关注释者的信息。

使用数据的注意事项

数据的社会影响

我们没有看到我们工作的任何直接恶意应用。数据中可能没有冒犯性的内容,因为新闻机构通常不会制作这类内容,而且关键字搜索也没有返回结果。但是,数据集中有几个敏感话题的新闻文件。

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

这些数据是由Ilya Gusev收集的。

许可信息

[需要更多信息]

引用信息

@misc{gusev2021headlinecause,
      title={HeadlineCause: A Dataset of News Headlines for Detecting Causalities}, 
      author={Ilya Gusev and Alexey Tikhonov},
      year={2021},
      eprint={2108.12626},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

贡献

[N/A]