数据集:
IlyaGusev/headline_cause
任务:
文本分类计算机处理:
multilingual大小:
10K<n<100K语言创建人:
found批注创建人:
crowdsourced源数据集:
original预印本库:
arxiv:2108.12626其他:
causal-reasoning许可:
cc0-1.0该数据集用于检测新闻标题对之间隐含的因果关系。该数据集包括来自英文新闻的5000多对标题和来自俄文新闻的9000多对标题,并通过众包进行了标注。这些标题对从完全无关或属于同一主题到包含因果关系和驳斥关系的范围内。
俄文入门任务加载:
from datasets import load_dataset dataset = load_dataset("IlyaGusev/headline_cause", "ru_simple")
[需要更多信息]
该数据集由俄文和英文两部分组成。
每个数据实例中都有两个标题的URL、标题和时间戳。标签在三个字段中呈现。'Result'字段是一个文本标签,'label'字段是一个数值标签,'agreement'字段显示注释者之间的多数票一致性。其他信息包括实例ID和两篇文章之间的链接是否存在。
{ 'left_url': 'https://www.kommersant.ru/doc/4347456', 'right_url': 'https://tass.ru/kosmos/8488527', 'left_title': 'NASA: информация об отказе сотрудничать с Россией по освоению Луны некорректна', 'right_title': 'NASA назвало некорректными сообщения о нежелании США включать РФ в соглашение по Луне', 'left_timestamp': datetime.datetime(2020, 5, 15, 19, 46, 20), 'right_timestamp': datetime.datetime(2020, 5, 15, 19, 21, 36), 'label': 0, 'result': 'not_cause', 'agreement': 1.0, 'id': 'ru_tg_101', 'has_link': True }
Dataset | Split | Number of Instances |
---|---|---|
ru_simple | train | 7,641 |
validation | 955 | |
test | 957 | |
en_simple | train | 4,332 |
validation | 542 | |
test | 542 | |
ru_full | train | 5,713 |
validation | 715 | |
test | 715 | |
en_full | train | 2,009 |
validation | 251 | |
test | 252 |
[需要更多信息]
[需要更多信息]
谁是源语言的生产者?[需要更多信息]
每个候选标题对都使用 Yandex Toloka 进行了注释,这是一个众包平台。任务是确定两个标题A和B之间的关系。有七种可能的选项:标题几乎相同,A导致B,B导致A,A驳斥B,B驳斥A,A以另一种方式与B关联,A与B无关。俄文新闻的注释指南是俄文的,英文新闻的注释指南是英文的。
指南:
每个对子有十个工人进行注释。总计注释预算为870美元,参与者的预计时薪为45美分。注释管理是半自动的。脚本可以在 Github repository 中找到。
注释者是谁?俄文部分有457名工人进行了注释,英文部分有180名工人进行了注释。
数据集没有进行匿名处理,因此数据集中可能会包含个人姓名。数据集中不包含有关原始作者的信息。除了平台工作者ID之外,不包含有关注释者的信息。
我们没有看到我们工作的任何直接恶意应用。数据中可能没有冒犯性的内容,因为新闻机构通常不会制作这类内容,而且关键字搜索也没有返回结果。但是,数据集中有几个敏感话题的新闻文件。
[需要更多信息]
[需要更多信息]
这些数据是由Ilya Gusev收集的。
[需要更多信息]
@misc{gusev2021headlinecause, title={HeadlineCause: A Dataset of News Headlines for Detecting Causalities}, author={Ilya Gusev and Alexey Tikhonov}, year={2021}, eprint={2108.12626}, archivePrefix={arXiv}, primaryClass={cs.CL} }
[N/A]