数据集:
ml6team/cnn_dailymail_nl
Dutch CNN / DailyMail数据集是英文CNN / Dailymail数据集的机器翻译版本,包含超过30万条新闻,由CNN和Daily Mail的记者撰写。
关于数据集的大部分信息可以在原始英文版本的 HuggingFace page 上找到。
创建该数据集的基本步骤如下(还有一些分块):
load_dataset("cnn_dailymail", '3.0.0')
这是HuggingFace的翻译流程:
pipeline( task='translation_en_to_nl', model='Helsinki-NLP/opus-mt-en-nl', tokenizer='Helsinki-NLP/opus-mt-en-nl')
Dutch CNN / DailyMail数据集遵循与原始英文版本相同的拆分,并分为3个拆分:train,validation和test。
Dataset Split | Number of Instances in Split |
---|---|
Train | 287,113 |
Validation | 13,368 |
Test | 11,490 |