数据集:
miracl/miracl-corpus
任务:
文本检索子任务:
document-retrieval计算机处理:
multilingual批注创建人:
expert-generated预印本库:
arxiv:2210.09984许可:
apache-2.0MIRACL ???(跨语言信息检索)是一个多语言检索数据集,重点关注18种不同语言的搜索,这些语言共拥有超过30亿的母语使用者。
该数据集包含16种“已知语言”的收集数据。另外两种“意外语言”将在稍后发布。
每种语言的语料库是从维基百科的转存数据中准备的,我们仅保留纯文本,舍弃图像、表格等。每篇文章都使用WikiExtractor根据自然语境单元(例如,wiki标记中的\n\n)进行了分段。这些段落中的每一个都包括一个“文档”或检索单元。我们保留了每个段落的维基百科文章标题。
每个检索单元包含三个字段:docid、title和text。以英文语料库的一个示例为例:
{ "docid": "39#0", "title": "Albedo", "text": "Albedo (meaning 'whiteness') is the measure of the diffuse reflection of solar radiation out of the total solar radiation received by an astronomical body (e.g. a planet like Earth). It is dimensionless and measured on a scale from 0 (corresponding to a black body that absorbs all incident radiation) to 1 (corresponding to a body that reflects all incident radiation)." }
docid的模式为X#Y,其中具有相同X的所有段落来自同一篇维基百科文章,而Y表示该文章中的段落,按顺序编号。text字段包含段落的文本。title字段包含段落所属文章的名称。
可以使用以下方法加载数据集:
lang='ar' # or any of the 16 languages miracl_corpus = datasets.load_dataset('miracl/miracl-corpus', lang)['train'] for doc in miracl_corpus: docid = doc['docid'] title = doc['title'] text = doc['text']
下表包含每种语言的收集中的段落数量和维基百科文章数量,以及数据集和原始维基百科转存的链接。
Language | # of Passages | # of Articles | Links | Raw Wiki Dump |
---|---|---|---|---|
Arabic (ar) | 2,061,414 | 656,982 | 1232321 | 1233321 |
Bengali (bn) | 297,265 | 63,762 | 1234321 | 1235321 |
English (en) | 32,893,221 | 5,758,285 | 1236321 | 1237321 |
Spanish (es) | 10,373,953 | 1,669,181 | 1238321 | 1239321 |
Persian (fa) | 2,207,172 | 857,827 | 12310321 | 12311321 |
Finnish (fi) | 1,883,509 | 447,815 | 12312321 | 12313321 |
French (fr) | 14,636,953 | 2,325,608 | 12314321 | 12315321 |
Hindi (hi) | 506,264 | 148,107 | 12316321 | 12317321 |
Indonesian (id) | 1,446,315 | 446,330 | 12318321 | 12319321 |
Japanese (ja) | 6,953,614 | 1,133,444 | 12320321 | 12321321 |
Korean (ko) | 1,486,752 | 437,373 | 12322321 | 12323321 |
Russian (ru) | 9,543,918 | 1,476,045 | 12324321 | 12325321 |
Swahili (sw) | 131,924 | 47,793 | 12326321 | 12327321 |
Telugu (te) | 518,079 | 66,353 | 12328321 | 12329321 |
Thai (th) | 542,166 | 128,179 | 12330321 | 12331321 |
Chinese (zh) | 4,934,368 | 1,246,389 | 12332321 | 12333321 |