数据集:
neuclir/neuclir1
许可:
odc-by源数据集:
extended|c4批注创建人:
no-annotation语言创建人:
found大小:
1M<n<10M计算机处理:
multilingual子任务:
document-retrieval任务:
文本检索这是为TREC 2022 NeuCLIR任务创建的数据集。该数据集的设计与HC4类似,并且大部分来自HC4的文档都被转移到了这个数据集中。文档是来自Common Crawl的中文、波斯语和俄语的网页。
Split | Documents |
---|---|
fas (Persian) | 2.2M |
rus (Russian) | 4.6M |
zho (Chinese) | 3.2M |
使用? Datasets:
from datasets import load_dataset dataset = load_dataset('neuclir/neuclir1') dataset['fas'] # Persian documents dataset['rus'] # Russian documents dataset['zho'] # Chinese documents