英文

LAMA数据集卡片:语言模型分析 - 用于探索和分析预训练语言模型中包含的事实和常识知识的数据集。

@inproceedings{petroni2020how, title={How Context Affects Language Models' Factual Predictions}, author={Fabio Petroni and Patrick Lewis and Aleksandra Piktus and Tim Rockt{"a}schel and Yuxiang Wu and Alexander H. Miller and Sebastian Riedel}, booktitle={Automated Knowledge Base Construction}, year={2020}, url={ https://openreview.net/forum?id=025X0zPfn} }

数据集概述

该数据集提供了LAMA的数据。数据集包括Google_RE( https://code.google.com/archive/p/relation-extraction-corpus/ )的子集,TRex(维基数据三元组的子集),Conceptnet( https://github.com/commonsense/conceptnet5/wiki ),以及Squad。分别有“google_re”,“trex”,“conceptnet”和“squad”的配置。

数据集包括一些清理操作,并添加了一个屏蔽句子以及与[MASK]标记相关的答案。预测[MASK]标记的准确性显示语言模型对事实和常识信息的掌握程度。[MASK]标记仅用于“object”插槽。

这个版本的数据集还包括“否定”的句子以及屏蔽的句子。此外,某些配置包括形式为“[X] some text [Y]”的“template”和“template_negated”字段,其中[X]和[Y]分别是某些关系的主题和对象插槽。

更多详情请参阅论文。有关更多信息,还请参阅: https://github.com/facebookresearch/LAMA

语言

en

数据集结构

数据实例

trex配置具有以下字段:

{'description': '该项目(一个机构、法律、公职等)或陈述属于、拥有权力或适用于值(一个领土管辖权:国家、州、市镇等)', 'label': '适用于辖区', 'masked_sentence': '它因为是由两个共主 - 西班牙/罗马天主教乌尔格尔主教和[MASK]的总统 - 而闻名。', 'obj_label': '法国', 'obj_surface': '法国', 'obj_uri': 'Q142', 'predicate_id': 'P1001', 'sub_label': '法国共和国总统', 'sub_surface': '总统', 'sub_uri': 'Q191954', 'template': '[X]是[Y]的一个法律术语。', 'template_negated': '[X]不是[Y]的一个法律术语。', 'type': 'N-M', 'uuid': '3fe3d4da-9df9-45ba-8109-784ce5fba38a'}

conceptnet配置具有以下字段:

{'masked_sentence': '当你还活着时,你会做的事情之一是[MASK]。', 'negated': '', 'obj': 'think', 'obj_label': 'think', 'pred': 'HasSubevent', 'sub': 'alive', 'uuid': 'd4f11631dde8a43beda613ec845ff7d1'}

squad配置具有以下字段:

{'id': '56be4db0acb8001400a502f0_0', 'masked_sentence': '为了强调超级碗的50周年纪念,使用了[MASK]颜色。', 'negated': "['为了强调超级碗的50周年纪念,未使用[MASK]颜色。']", 'obj_label': '金牌', 'sub_label': 'Squad'}

google_re配置具有以下字段:

{'evidences': '[{\'url\':\'http://en.wikipedia.org/wiki/Peter_F._Martin\', \'snippet\': "Peter F. Martin (born 1941) is an American politician who is a Democratic member of the Rhode Island House of Representatives. He has represented the 75th District Newport since 6 January 2009. He is currently serves on the House Committees on Judiciary, Municipal Government, and Veteran\'s Affairs. During his first term of office he served on the House Committees on Small Business and Separation of Powers & Government Oversight. In August 2010, Representative Martin was appointed as a Commissioner on the Atlantic States Marine Fisheries Commission", \'considered_sentences\': [\'Peter F Martin (born 1941) is an American politician who is a Democratic member of the Rhode Island House of Representatives .\']}]', 'judgments':" [ {'rater':'18349444711114572460', 'judgment':'yes'}, {'rater':'17595829233063766365', 'judgment':'yes'}, {'rater':'4593294093459651288', 'judgment':'yes'}, {'rater':'7387074196865291426', 'judgment':'yes'}, {'rater':'17154471385681223613', 'judgment':'yes'} ]", 'masked_sentence': '彼得·F·马丁([MASK])是美国的政治家,是罗得岛州众议院的民主党成员。自2009年1月6日以来,他一直代表纽波特的第75选区。他目前在司法、市政府和退伍军人事务委员会任职。在候任期间,他曾在小企业和权力与政府监督分离委员会任职。2010年8月,马丁代表被任命为大西洋州海洋渔业委员会委员。', 'obj': '1941', 'obj_aliases': '[]', 'obj_label': '1941', 'obj_w': 'None', 'pred': '/people/person/date_of_birth', 'sub': '/m/09gb0bw', 'sub_aliases': '[]', 'sub_label': 'Peter F. Martin', 'sub_w': 'None', 'template': '[X]([Y]出生)。', 'template_negated': '[X](没有出生在[Y])。', 'uuid': '18af2dac-21d3-4c42-aff5-c247f245e203'}

数据字段

trex配置具有以下字段:

  • uuid:ID
  • obj_uri:对象插槽的URI
  • obj_label:对象插槽的标签
  • sub_uri:主题插槽的URI
  • sub_label:主题插槽的标签
  • predicate_id:谓词/关系
  • sub_surface:主题的表面文本
  • obj_surface:对象的表面文本。这是应该由[MASK]标记预测的单词。
  • masked_sentence:用于探测的屏蔽句子,其中的对象单词被替换为[MASK]
  • template:用于提取关系、对象和主题的文本模式,形式为“[X] some text [Y]”,其中[X]和[Y]分别是主题和对象插槽。模板可能缺失并用空字符串替换。
  • template_negated:与上述相同,只是[Y]不是对象。template_negated可能缺失并用空字符串替换。
  • label:关系/谓词的标签。标签可能缺失并用空字符串替换。
  • description:关系/谓词的描述。描述可能缺失并用空字符串替换。
  • type:关系/谓词的类型ID。类型可能缺失并用空字符串替换。

conceptnet配置具有以下字段:

  • uuid:ID
  • sub:主题。subj可能缺失并用空字符串替换。
  • obj:要预测的对象。obj可能缺失并用空字符串替换。
  • pred:谓词/关系
  • obj_label:对象标签
  • masked_sentence:用于探测的屏蔽句子,其中的对象单词被替换为[MASK]
  • negated:与上述相同,只是[MASK]被替换为不是对象单词的内容。negated可能缺失并用空字符串替换。

squad配置具有以下字段:

  • id:ID
  • sub_label:主题标签
  • obj_label:正在预测的对象标签
  • masked_sentence:用于探测的屏蔽句子,其中的对象单词被替换为[MASK]
  • negated:与上述相同,只是[MASK]被替换为不是对象单词的内容。negated可能缺失并用空字符串替换。

google_re配置具有以下字段:

  • uuid:ID
  • pred:谓词
  • sub:主题。subj可能缺失并用空字符串替换。
  • obj:对象。obj可能缺失并用空字符串替换。
  • evidences:用于谓词提供证据的扁平化JSON字符串。解析此JSON字符串以获取更多的“snippet”信息。
  • judgments:判断数据
  • sub_q:未知
  • sub_label:主题的标签
  • sub_aliases:未知
  • obj_w:未知
  • obj_label:对象的标签
  • obj_aliases:未知
  • masked_sentence:用于探测的屏蔽句子,其中的对象单词被替换为[MASK]
  • template:用于提取关系、对象和主题的文本模式,形式为“[X] some text [Y]”,其中[X]和[Y]分别是主题和对象插槽。
  • template_negated:与上述相同,只是[Y]不是对象。

数据集拆分

没有数据集拆分。

数据集创建

策划理由

该数据集的收集和创建是为了探究语言模型的理解能力。

数据源

初始数据收集和标准化

有关详细信息,请参阅研究论文和网站。数据集是从各种其他数据集中收集并进行了清理以进行探测。

谁是资源语言制作者?

LAMA作者和各个配置的原始作者。

注释

注释过程

人工注释和机器注释。

谁是注释者?

人工注释和机器注释。

个人和敏感信息

未知,但可能是著名人物的姓名。

使用数据的注意事项

数据的社会影响

该工作的目标是探索语言模型的理解能力。

偏见讨论

由于数据来自人工注释者,所以可能存在偏见。

[需要更多信息]

其他已知限制

数据字段的原始文档有限。

其他信息

数据集策划者

Facebook的LAMA作者和原始数据集的作者。

许可信息

署名-非商业性使用4.0国际许可证。详见 https://github.com/facebookresearch/LAMA/blob/master/LICENSE

引用信息

@inproceedings{petroni2019language, title={Language Models as Knowledge Bases?}, author={F. Petroni, T. Rockt{"{a}}schel, A. H. Miller, P. Lewis, A. Bakhtin, Y. Wu and S. Riedel}, booktitle={In: Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2019}, year={2019}}

@inproceedings{petroni2020how, title={How Context Affects Language Models' Factual Predictions}, author={Fabio Petroni and Patrick Lewis and Aleksandra Piktus and Tim Rockt{"a}schel and Yuxiang Wu and Alexander H. Miller and Sebastian Riedel}, booktitle={Automated Knowledge Base Construction}, year={2020}, url={ https://openreview.net/forum?id=025X0zPfn} }

贡献

感谢 @ontocord 添加此数据集。