数据集:

m_lama

任务:

问答

文本分类

子任务:

open-domain-qa text-scoring

语言:

计算机处理:

translation

大小:

100K<n<1M

语言创建人:

crowdsourced expert-generated machine-generated

批注创建人:

crowdsourced expert-generated machine-generated

源数据集:

extended|lama

预印本库:

arxiv:2102.00894

其他:

probing

许可:

cc-by-nc-sa-4.0

数据集介绍文件清单

英文

[数据集名称] 的数据集卡片

数据集概述

该数据集提供了mLAMA的数据，mLAMA是LAMA的多语言版本。关于LAMA，请参见 https://github.com/facebookresearch/LAMA 。对于mLAMA，我们考虑了LAMA的TREx和GoogleRE部分，并使用Google翻译以及Wikidata和Google知识图谱API进行了机器翻译。机器翻译的模板已经经过验证，即它们是否包含了一个'[X]'和一个'[Y]'。

这些数据可用于创建类似于"巴黎是[MASK]的首都"这样的填空查询，涵盖53种语言。更多详情请参见网站 http://cistern.cis.lmu.de/mlama/ 或GitHub上的存储库 https://github.com/norakassner/mlama 。

支持的任务和排行榜

语言模型知识探查。

语言

该数据集包含53种语言：af,ar,az,be,bg,bn,ca,ceb,cs,cy,da,de,el,en,es,et,eu,fa,fi,fr,ga,gl,he,hi,hr,hu,hy,id,it,ja,ka,ko,la,lt,lv,ms,nl,pl,pt,ro,ru,sk,sl,sq,sr,sv,ta,th,tr,uk,ur,vi,zh

数据集结构

对于每种语言和每个关系/谓词，都有一组三元组。

数据实例

对于每种语言和关系，都有由对象、谓词和主语组成的三元组。对于每个谓词，都有一个可用的模板。这里给出了数据["test"][0]的示例：

{
'language': 'af',
'lineid': 0, 
'obj_label': 'Frankryk', 
'obj_uri': 'Q142', 
'predicate_id': 'P1001', 
'sub_label': 'President van Frankryk', 
'sub_uri': 'Q191954', 
'template': "[X] is 'n wettige term in [Y].", 
'uuid': '3fe3d4da-9df9-45ba-8109-784ce5fba38a'
}

数据字段

每个实例具有以下字段：

"uuid": 唯一标识符
"lineid": mLAMA唯一标识符
"obj_id": 对象的知识图谱ID
"obj_label": 对象的表面形式
"sub_id": 主语的知识图谱ID
"sub_label": 主语的表面形式
"template": 模板
"language": 语言代码
"predicate_id": 关系ID

数据划分

只有一个被标记为“测试数据”的分区。

数据集创建

策划理由

将数据集翻译成53种语言，以多语言方式研究预训练语言模型的知识。

源数据

初始数据收集和规范化

数据来源有：

LAMA（ https://github.com/facebookresearch/LAMA ），采用Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)许可证T-REx（ https://hadyelsahar.github.io/t-rex/ ），采用Creative Commons Attribution-ShareAlike 4.0 International LicenseGoogle-RE（ https://github.com/google-research-datasets/relation-extraction-corpus ）Wikidata（ https://www.wikidata.org/ ），采用Creative Commons CC0 License和Creative Commons Attribution-ShareAlike License

源语言制作者是谁？

请参阅上述链接。

注释

注释过程

众包（wikidata）和机器翻译。

注释者是谁？

未知。

个人和敏感信息

(极有可能)是在Google知识图谱或Wikidata中具有条目的知名人士的姓名。

使用数据的注意事项

该数据是通过机器翻译和自动处理生成的。

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

并非所有三元组都在所有语言中可用。

其他信息

数据集策划者

mLAMA论文的作者以及原始数据集的作者。

许可信息

创作共用署名-非商业性使用-相同方式共享 4.0 国际许可证 (CC BY-NC-SA 4.0)。 https://creativecommons.org/licenses/by-nc-sa/4.0/

引用信息

@article{kassner2021multilingual,
  author    = {Nora Kassner and
               Philipp Dufter and
               Hinrich Sch{\"{u}}tze},
  title     = {Multilingual {LAMA:} Investigating Knowledge in Multilingual Pretrained
               Language Models},
  journal   = {CoRR},
  volume    = {abs/2102.00894},
  year      = {2021},
  url       = {https://arxiv.org/abs/2102.00894},
  archivePrefix = {arXiv},
  eprint    = {2102.00894},
  timestamp = {Tue, 09 Feb 2021 13:35:56 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2102-00894.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org},
  note      = {to appear in EACL2021}
}

贡献者

感谢 @pdufter 添加了该数据集。

作者:

佚名

数据集大小:

16.59 KB