数据集:

gcaillaut/frwiki_good_pages_el

英文

frwiki_good_pages_el 数据集卡片

数据集概述

此数据集包含来自法语维基百科的精选和优良文章。页面以HTML文件的形式从 French Wikipedia website 进行下载。

该数据集旨在用于训练实体链接(EL)系统。文章中的链接用于检测命名实体。

语言

  • 法语

数据集结构

{
    "title": "Title of the page",
    "qid": "QID of the corresponding Wikidata entity",
    "words": ["tokens"],
    "wikipedia": ["Wikipedia description of each entity"],
    "wikidata": ["Wikidata description of each entity"],
    "labels": ["NER labels"],
    "titles": ["Wikipedia title of each entity"],
    "qids": ["QID of each entity"],
}

words字段包含文章的文本,按空格分割。其他字段是与words长度相同的列表,并且仅在words中的相应标记是实体的开头时包含数据。例如,如果words中的第i个标记是实体,则wikipedia的第i个元素包含来自维基百科的此实体的描述。其他字段也是如此。如果实体跨越多个单词,则仅第一个单词的索引包含数据。

唯一的例外是labels字段,用于标记实体。它使用IOB编码:如果标记不是实体的一部分,则标签为“O”;如果是多词实体的第一个单词,则标签为“B”;否则标签为“I”。