数据集:
lambada
任务:
文生文语言:
en计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
expert-generated源数据集:
extended|bookcorpus许可:
cc-by-4.0LAMBADA 通过一个单词预测任务来评估计算模型在文本理解方面的能力。LAMBADA 是一组叙述性段落,具有这样一个特点:如果人类被暴露于整个段落,他们能够猜出它们的最后一个单词,但如果他们只看到目标单词前面的最后一句话,他们就无法猜到。要在 LAMBADA 上成功,计算模型不能仅仅依赖于局部语境,还必须能够跟踪更广阔的语篇中的信息。
LAMBADA 数据集从 BookCorpus 中提取,包含 10,022 个段落,分为 4,869 个开发集和 5,153 个测试集段落。用于在 LAMBADA 上测试的语言模型的训练数据包括 2,662 本小说的完整文本(与 dev+test 中的不重叠),总计 2.03 亿个单词。
长程依赖性的(最后一个)单词预测
数据集中的文本为英语。相关的 BCP-47 代码是 en 。
数据点是一个文本序列(段落),包括上下文、目标句子(最后一个句子)和目标单词。对于 dev 和 test 的每个段落,要猜测的单词是最后一个单词。
训练数据包括 2,662 本小说的完整文本(与 dev+test 中的不重叠),总计超过 2 亿个单词。它由与 dev+test 段落相同领域的文本组成,但没有进行任何过滤。
每个训练实例都有一个“类别”字段,指示从哪个子类别中提取了该书。对于 dev 和 test 的拆分,不提供此字段。
一个示例如下:
{"category": "Mystery", "text": "bob could have been called in at this point , but he was n't miffed at his exclusion at all . he was relieved at not being brought into this initial discussion with central command . `` let 's go make some grub , '' said bob as he turned to danny . danny did n't keep his stoic expression , but with a look of irritation got up and left the room with bob", }
该数据集旨在评估语言模型保持长期上下文记忆的能力。实例从书籍中提取,因为它们显示长期依赖性。特别地,数据被精心策划,以便当人类只能看到最后一句话时,目标单词对于他们来说是很难猜到的,但如果可以看到它们来自的整个段落,目标单词就很容易猜到。
该语料库经过复制,并使用停用词列表过滤掉潜在的冒犯性材料。
语言的源生产者是谁?这些段落是从 Book Corpus 的小说中提取的。
作者要求两位连续的主体(付费众包人员)根据整个段落(包括上下文和目标句子)精确匹配缺失的单词,并确保没有主体(十位中的任何一位)能够根据仅给出 3 个猜测时的局部上下文提供它。
标注者是谁?文本是自注释的,但通过询问(付费的)众包人员猜测最后一个单词进行策划。
【需要更多信息】
【需要更多信息】
【需要更多信息】
【需要更多信息】
【需要更多信息】
该数据集在 [CC BY 4.0(创意共享署名4.0国际)](https://creativecommons.org/licenses/by/4.0/) 许可下发布。
@InProceedings{paperno-EtAl:2016:P16-1, author = {Paperno, Denis and Kruszewski, Germ\'{a}n and Lazaridou, Angeliki and Pham, Ngoc Quan and Bernardi, Raffaella and Pezzelle, Sandro and Baroni, Marco and Boleda, Gemma and Fernandez, Raquel}, title = {The {LAMBADA} dataset: Word prediction requiring a broad discourse context}, booktitle = {Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)}, month = {August}, year = {2016}, address = {Berlin, Germany}, publisher = {Association for Computational Linguistics}, pages = {1525--1534}, url = {http://www.aclweb.org/anthology/P16-1144} }
感谢 @VictorSanh 添加了这个数据集。