数据集:
lama
@inproceedings{petroni2020how, title={How Context Affects Language Models' Factual Predictions}, author={Fabio Petroni and Patrick Lewis and Aleksandra Piktus and Tim Rockt{"a}schel and Yuxiang Wu and Alexander H. Miller and Sebastian Riedel}, booktitle={Automated Knowledge Base Construction}, year={2020}, url={ https://openreview.net/forum?id=025X0zPfn} }
该数据集提供了LAMA的数据。数据集包括Google_RE( https://code.google.com/archive/p/relation-extraction-corpus/ )的子集,TRex(维基数据三元组的子集),Conceptnet( https://github.com/commonsense/conceptnet5/wiki ),以及Squad。分别有“google_re”,“trex”,“conceptnet”和“squad”的配置。
数据集包括一些清理操作,并添加了一个屏蔽句子以及与[MASK]标记相关的答案。预测[MASK]标记的准确性显示语言模型对事实和常识信息的掌握程度。[MASK]标记仅用于“object”插槽。
这个版本的数据集还包括“否定”的句子以及屏蔽的句子。此外,某些配置包括形式为“[X] some text [Y]”的“template”和“template_negated”字段,其中[X]和[Y]分别是某些关系的主题和对象插槽。
更多详情请参阅论文。有关更多信息,还请参阅: https://github.com/facebookresearch/LAMA
en
trex配置具有以下字段:
{'description': '该项目(一个机构、法律、公职等)或陈述属于、拥有权力或适用于值(一个领土管辖权:国家、州、市镇等)', 'label': '适用于辖区', 'masked_sentence': '它因为是由两个共主 - 西班牙/罗马天主教乌尔格尔主教和[MASK]的总统 - 而闻名。', 'obj_label': '法国', 'obj_surface': '法国', 'obj_uri': 'Q142', 'predicate_id': 'P1001', 'sub_label': '法国共和国总统', 'sub_surface': '总统', 'sub_uri': 'Q191954', 'template': '[X]是[Y]的一个法律术语。', 'template_negated': '[X]不是[Y]的一个法律术语。', 'type': 'N-M', 'uuid': '3fe3d4da-9df9-45ba-8109-784ce5fba38a'}
conceptnet配置具有以下字段:
{'masked_sentence': '当你还活着时,你会做的事情之一是[MASK]。', 'negated': '', 'obj': 'think', 'obj_label': 'think', 'pred': 'HasSubevent', 'sub': 'alive', 'uuid': 'd4f11631dde8a43beda613ec845ff7d1'}
squad配置具有以下字段:
{'id': '56be4db0acb8001400a502f0_0', 'masked_sentence': '为了强调超级碗的50周年纪念,使用了[MASK]颜色。', 'negated': "['为了强调超级碗的50周年纪念,未使用[MASK]颜色。']", 'obj_label': '金牌', 'sub_label': 'Squad'}
google_re配置具有以下字段:
{'evidences': '[{\'url\':\'http://en.wikipedia.org/wiki/Peter_F._Martin\', \'snippet\': "Peter F. Martin (born 1941) is an American politician who is a Democratic member of the Rhode Island House of Representatives. He has represented the 75th District Newport since 6 January 2009. He is currently serves on the House Committees on Judiciary, Municipal Government, and Veteran\'s Affairs. During his first term of office he served on the House Committees on Small Business and Separation of Powers & Government Oversight. In August 2010, Representative Martin was appointed as a Commissioner on the Atlantic States Marine Fisheries Commission", \'considered_sentences\': [\'Peter F Martin (born 1941) is an American politician who is a Democratic member of the Rhode Island House of Representatives .\']}]', 'judgments':" [ {'rater':'18349444711114572460', 'judgment':'yes'}, {'rater':'17595829233063766365', 'judgment':'yes'}, {'rater':'4593294093459651288', 'judgment':'yes'}, {'rater':'7387074196865291426', 'judgment':'yes'}, {'rater':'17154471385681223613', 'judgment':'yes'} ]", 'masked_sentence': '彼得·F·马丁([MASK])是美国的政治家,是罗得岛州众议院的民主党成员。自2009年1月6日以来,他一直代表纽波特的第75选区。他目前在司法、市政府和退伍军人事务委员会任职。在候任期间,他曾在小企业和权力与政府监督分离委员会任职。2010年8月,马丁代表被任命为大西洋州海洋渔业委员会委员。', 'obj': '1941', 'obj_aliases': '[]', 'obj_label': '1941', 'obj_w': 'None', 'pred': '/people/person/date_of_birth', 'sub': '/m/09gb0bw', 'sub_aliases': '[]', 'sub_label': 'Peter F. Martin', 'sub_w': 'None', 'template': '[X]([Y]出生)。', 'template_negated': '[X](没有出生在[Y])。', 'uuid': '18af2dac-21d3-4c42-aff5-c247f245e203'}
trex配置具有以下字段:
conceptnet配置具有以下字段:
squad配置具有以下字段:
google_re配置具有以下字段:
没有数据集拆分。
该数据集的收集和创建是为了探究语言模型的理解能力。
有关详细信息,请参阅研究论文和网站。数据集是从各种其他数据集中收集并进行了清理以进行探测。
谁是资源语言制作者?LAMA作者和各个配置的原始作者。
人工注释和机器注释。
谁是注释者?人工注释和机器注释。
未知,但可能是著名人物的姓名。
该工作的目标是探索语言模型的理解能力。
由于数据来自人工注释者,所以可能存在偏见。
[需要更多信息]
数据字段的原始文档有限。
Facebook的LAMA作者和原始数据集的作者。
署名-非商业性使用4.0国际许可证。详见 https://github.com/facebookresearch/LAMA/blob/master/LICENSE
@inproceedings{petroni2019language, title={Language Models as Knowledge Bases?}, author={F. Petroni, T. Rockt{"{a}}schel, A. H. Miller, P. Lewis, A. Bakhtin, Y. Wu and S. Riedel}, booktitle={In: Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2019}, year={2019}}
@inproceedings{petroni2020how, title={How Context Affects Language Models' Factual Predictions}, author={Fabio Petroni and Patrick Lewis and Aleksandra Piktus and Tim Rockt{"a}schel and Yuxiang Wu and Alexander H. Miller and Sebastian Riedel}, booktitle={Automated Knowledge Base Construction}, year={2020}, url={ https://openreview.net/forum?id=025X0zPfn} }
感谢 @ontocord 添加此数据集。