数据集:

neuclir/neuclir1

许可:

odc-by

源数据集:

extended|c4

批注创建人:

no-annotation

语言创建人:

found

大小:

1M<n<10M

计算机处理:

multilingual
英文

NeuCLIR1数据集卡片

数据集摘要

这是为TREC 2022 NeuCLIR任务创建的数据集。该数据集的设计与HC4类似,并且大部分来自HC4的文档都被转移到了这个数据集中。文档是来自Common Crawl的中文、波斯语和俄语的网页。

语言

  • 中文
  • 波斯语
  • 俄语

数据集结构

数据实例

Split Documents
fas (Persian) 2.2M
rus (Russian) 4.6M
zho (Chinese) 3.2M

数据字段

  • id:该文档的唯一标识符
  • cc_file:来自Common Crawl的源文件
  • time:从文章中提取的日期/时间
  • title:从文章中提取的标题
  • text:提取的文章正文
  • url:源网址

数据集使用

使用? Datasets:

from datasets import load_dataset

dataset = load_dataset('neuclir/neuclir1')
dataset['fas'] # Persian documents
dataset['rus'] # Russian documents
dataset['zho'] # Chinese documents