数据集:

ml6team/cnn_dailymail_nl

语言:

nl

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

no-annotation

源数据集:

https

许可:

mit
英文

Dutch CNN Dailymail数据集卡片

数据集摘要

Dutch CNN / DailyMail数据集是英文CNN / Dailymail数据集的机器翻译版本,包含超过30万条新闻,由CNN和Daily Mail的记者撰写。

关于数据集的大部分信息可以在原始英文版本的 HuggingFace page 上找到。

创建该数据集的基本步骤如下(还有一些分块):

load_dataset("cnn_dailymail", '3.0.0')

这是HuggingFace的翻译流程:

pipeline(
    task='translation_en_to_nl',
    model='Helsinki-NLP/opus-mt-en-nl',
    tokenizer='Helsinki-NLP/opus-mt-en-nl')

数据字段

  • id:包含从获取故事的URL的十六进制格式化SHA1哈希的字符串
  • article:包含新闻文章正文的字符串
  • highlights:包含由文章作者撰写的文章亮点的字符串

数据拆分

Dutch CNN / DailyMail数据集遵循与原始英文版本相同的拆分,并分为3个拆分:train,validation和test。

Dataset Split Number of Instances in Split
Train 287,113
Validation 13,368
Test 11,490