英文

[数据集名称] 的数据集卡片

数据集概述

该数据集提供了mLAMA的数据,mLAMA是LAMA的多语言版本。关于LAMA,请参见 https://github.com/facebookresearch/LAMA 。对于mLAMA,我们考虑了LAMA的TREx和GoogleRE部分,并使用Google翻译以及Wikidata和Google知识图谱API进行了机器翻译。机器翻译的模板已经经过验证,即它们是否包含了一个'[X]'和一个'[Y]'。

这些数据可用于创建类似于"巴黎是[MASK]的首都"这样的填空查询,涵盖53种语言。更多详情请参见网站 http://cistern.cis.lmu.de/mlama/ 或GitHub上的存储库 https://github.com/norakassner/mlama

支持的任务和排行榜

语言模型知识探查。

语言

该数据集包含53种语言:af,ar,az,be,bg,bn,ca,ceb,cs,cy,da,de,el,en,es,et,eu,fa,fi,fr,ga,gl,he,hi,hr,hu,hy,id,it,ja,ka,ko,la,lt,lv,ms,nl,pl,pt,ro,ru,sk,sl,sq,sr,sv,ta,th,tr,uk,ur,vi,zh

数据集结构

对于每种语言和每个关系/谓词,都有一组三元组。

数据实例

对于每种语言和关系,都有由对象、谓词和主语组成的三元组。对于每个谓词,都有一个可用的模板。这里给出了数据["test"][0]的示例:

{
'language': 'af',
'lineid': 0, 
'obj_label': 'Frankryk', 
'obj_uri': 'Q142', 
'predicate_id': 'P1001', 
'sub_label': 'President van Frankryk', 
'sub_uri': 'Q191954', 
'template': "[X] is 'n wettige term in [Y].", 
'uuid': '3fe3d4da-9df9-45ba-8109-784ce5fba38a'
}

数据字段

每个实例具有以下字段:

  • "uuid": 唯一标识符
  • "lineid": mLAMA唯一标识符
  • "obj_id": 对象的知识图谱ID
  • "obj_label": 对象的表面形式
  • "sub_id": 主语的知识图谱ID
  • "sub_label": 主语的表面形式
  • "template": 模板
  • "language": 语言代码
  • "predicate_id": 关系ID

数据划分

只有一个被标记为“测试数据”的分区。

数据集创建

策划理由

将数据集翻译成53种语言,以多语言方式研究预训练语言模型的知识。

源数据

初始数据收集和规范化

数据来源有:

LAMA( https://github.com/facebookresearch/LAMA ),采用Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)许可证T-REx( https://hadyelsahar.github.io/t-rex/ ),采用Creative Commons Attribution-ShareAlike 4.0 International LicenseGoogle-RE( https://github.com/google-research-datasets/relation-extraction-corpus )Wikidata( https://www.wikidata.org/ ),采用Creative Commons CC0 License和Creative Commons Attribution-ShareAlike License

源语言制作者是谁?

请参阅上述链接。

注释

注释过程

众包(wikidata)和机器翻译。

注释者是谁?

未知。

个人和敏感信息

(极有可能)是在Google知识图谱或Wikidata中具有条目的知名人士的姓名。

使用数据的注意事项

该数据是通过机器翻译和自动处理生成的。

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

并非所有三元组都在所有语言中可用。

其他信息

数据集策划者

mLAMA论文的作者以及原始数据集的作者。

许可信息

创作共用署名-非商业性使用-相同方式共享 4.0 国际许可证 (CC BY-NC-SA 4.0)。 https://creativecommons.org/licenses/by-nc-sa/4.0/

引用信息

@article{kassner2021multilingual,
  author    = {Nora Kassner and
               Philipp Dufter and
               Hinrich Sch{\"{u}}tze},
  title     = {Multilingual {LAMA:} Investigating Knowledge in Multilingual Pretrained
               Language Models},
  journal   = {CoRR},
  volume    = {abs/2102.00894},
  year      = {2021},
  url       = {https://arxiv.org/abs/2102.00894},
  archivePrefix = {arXiv},
  eprint    = {2102.00894},
  timestamp = {Tue, 09 Feb 2021 13:35:56 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2102-00894.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org},
  note      = {to appear in EACL2021}
}

贡献者

感谢 @pdufter 添加了该数据集。