数据集:

miracl/miracl-corpus

计算机处理:

multilingual

批注创建人:

expert-generated

预印本库:

arxiv:2210.09984

许可:

apache-2.0
英文

MIRACL语料库数据集卡片

MIRACL ???(跨语言信息检索)是一个多语言检索数据集,重点关注18种不同语言的搜索,这些语言共拥有超过30亿的母语使用者。

该数据集包含16种“已知语言”的收集数据。另外两种“意外语言”将在稍后发布。

每种语言的语料库是从维基百科的转存数据中准备的,我们仅保留纯文本,舍弃图像、表格等。每篇文章都使用WikiExtractor根据自然语境单元(例如,wiki标记中的\n\n)进行了分段。这些段落中的每一个都包括一个“文档”或检索单元。我们保留了每个段落的维基百科文章标题。

数据集结构

每个检索单元包含三个字段:docid、title和text。以英文语料库的一个示例为例:

{
    "docid": "39#0",
    "title": "Albedo", 
    "text": "Albedo (meaning 'whiteness') is the measure of the diffuse reflection of solar radiation out of the total solar radiation received by an astronomical body (e.g. a planet like Earth). It is dimensionless and measured on a scale from 0 (corresponding to a black body that absorbs all incident radiation) to 1 (corresponding to a body that reflects all incident radiation)."
}

docid的模式为X#Y,其中具有相同X的所有段落来自同一篇维基百科文章,而Y表示该文章中的段落,按顺序编号。text字段包含段落的文本。title字段包含段落所属文章的名称。

可以使用以下方法加载数据集:

lang='ar'  # or any of the 16 languages
miracl_corpus = datasets.load_dataset('miracl/miracl-corpus', lang)['train']
for doc in miracl_corpus:
   docid = doc['docid']
   title = doc['title']
   text = doc['text']

数据集统计和链接

下表包含每种语言的收集中的段落数量和维基百科文章数量,以及数据集和原始维基百科转存的链接。

Language # of Passages # of Articles Links Raw Wiki Dump
Arabic (ar) 2,061,414 656,982 1232321 1233321
Bengali (bn) 297,265 63,762 1234321 1235321
English (en) 32,893,221 5,758,285 1236321 1237321
Spanish (es) 10,373,953 1,669,181 1238321 1239321
Persian (fa) 2,207,172 857,827 12310321 12311321
Finnish (fi) 1,883,509 447,815 12312321 12313321
French (fr) 14,636,953 2,325,608 12314321 12315321
Hindi (hi) 506,264 148,107 12316321 12317321
Indonesian (id) 1,446,315 446,330 12318321 12319321
Japanese (ja) 6,953,614 1,133,444 12320321 12321321
Korean (ko) 1,486,752 437,373 12322321 12323321
Russian (ru) 9,543,918 1,476,045 12324321 12325321
Swahili (sw) 131,924 47,793 12326321 12327321
Telugu (te) 518,079 66,353 12328321 12329321
Thai (th) 542,166 128,179 12330321 12331321
Chinese (zh) 4,934,368 1,246,389 12332321 12333321