数据集:
m_lama
计算机处理:
translation大小:
100K<n<1M源数据集:
extended|lama预印本库:
arxiv:2102.00894其他:
probing许可:
cc-by-nc-sa-4.0该数据集提供了mLAMA的数据,mLAMA是LAMA的多语言版本。关于LAMA,请参见 https://github.com/facebookresearch/LAMA 。对于mLAMA,我们考虑了LAMA的TREx和GoogleRE部分,并使用Google翻译以及Wikidata和Google知识图谱API进行了机器翻译。机器翻译的模板已经经过验证,即它们是否包含了一个'[X]'和一个'[Y]'。
这些数据可用于创建类似于"巴黎是[MASK]的首都"这样的填空查询,涵盖53种语言。更多详情请参见网站 http://cistern.cis.lmu.de/mlama/ 或GitHub上的存储库 https://github.com/norakassner/mlama 。
语言模型知识探查。
该数据集包含53种语言:af,ar,az,be,bg,bn,ca,ceb,cs,cy,da,de,el,en,es,et,eu,fa,fi,fr,ga,gl,he,hi,hr,hu,hy,id,it,ja,ka,ko,la,lt,lv,ms,nl,pl,pt,ro,ru,sk,sl,sq,sr,sv,ta,th,tr,uk,ur,vi,zh
对于每种语言和每个关系/谓词,都有一组三元组。
对于每种语言和关系,都有由对象、谓词和主语组成的三元组。对于每个谓词,都有一个可用的模板。这里给出了数据["test"][0]的示例:
{ 'language': 'af', 'lineid': 0, 'obj_label': 'Frankryk', 'obj_uri': 'Q142', 'predicate_id': 'P1001', 'sub_label': 'President van Frankryk', 'sub_uri': 'Q191954', 'template': "[X] is 'n wettige term in [Y].", 'uuid': '3fe3d4da-9df9-45ba-8109-784ce5fba38a' }
每个实例具有以下字段:
只有一个被标记为“测试数据”的分区。
将数据集翻译成53种语言,以多语言方式研究预训练语言模型的知识。
数据来源有:
LAMA( https://github.com/facebookresearch/LAMA ),采用Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)许可证T-REx( https://hadyelsahar.github.io/t-rex/ ),采用Creative Commons Attribution-ShareAlike 4.0 International LicenseGoogle-RE( https://github.com/google-research-datasets/relation-extraction-corpus )Wikidata( https://www.wikidata.org/ ),采用Creative Commons CC0 License和Creative Commons Attribution-ShareAlike License
源语言制作者是谁?请参阅上述链接。
众包(wikidata)和机器翻译。
注释者是谁?未知。
(极有可能)是在Google知识图谱或Wikidata中具有条目的知名人士的姓名。
该数据是通过机器翻译和自动处理生成的。
[需要更多信息]
[需要更多信息]
并非所有三元组都在所有语言中可用。
mLAMA论文的作者以及原始数据集的作者。
创作共用署名-非商业性使用-相同方式共享 4.0 国际许可证 (CC BY-NC-SA 4.0)。 https://creativecommons.org/licenses/by-nc-sa/4.0/
@article{kassner2021multilingual, author = {Nora Kassner and Philipp Dufter and Hinrich Sch{\"{u}}tze}, title = {Multilingual {LAMA:} Investigating Knowledge in Multilingual Pretrained Language Models}, journal = {CoRR}, volume = {abs/2102.00894}, year = {2021}, url = {https://arxiv.org/abs/2102.00894}, archivePrefix = {arXiv}, eprint = {2102.00894}, timestamp = {Tue, 09 Feb 2021 13:35:56 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-2102-00894.bib}, bibsource = {dblp computer science bibliography, https://dblp.org}, note = {to appear in EACL2021} }
感谢 @pdufter 添加了该数据集。