数据集:
gcaillaut/frwiki_good_pages_el
此数据集包含来自法语维基百科的精选和优良文章。页面以HTML文件的形式从 French Wikipedia website 进行下载。
该数据集旨在用于训练实体链接(EL)系统。文章中的链接用于检测命名实体。
{ "title": "Title of the page", "qid": "QID of the corresponding Wikidata entity", "words": ["tokens"], "wikipedia": ["Wikipedia description of each entity"], "wikidata": ["Wikidata description of each entity"], "labels": ["NER labels"], "titles": ["Wikipedia title of each entity"], "qids": ["QID of each entity"], }
words字段包含文章的文本,按空格分割。其他字段是与words长度相同的列表,并且仅在words中的相应标记是实体的开头时包含数据。例如,如果words中的第i个标记是实体,则wikipedia的第i个元素包含来自维基百科的此实体的描述。其他字段也是如此。如果实体跨越多个单词,则仅第一个单词的索引包含数据。
唯一的例外是labels字段,用于标记实体。它使用IOB编码:如果标记不是实体的一部分,则标签为“O”;如果是多词实体的第一个单词,则标签为“B”;否则标签为“I”。