数据集:
evaluate/glue-ci
任务:
文本分类语言:
en计算机处理:
monolingual大小:
10K<n<100K语言创建人:
other批注创建人:
other源数据集:
original许可:
cc-by-4.0GLUE(General Language Understanding Evaluation benchmark,总体语言理解评估基准)是一组用于训练、评估和分析自然语言理解系统的资源( https://gluebenchmark.com/ )。
GLUE基准的排行榜可以在这里找到( at this address )。它包括以下任务:
ax这是一个手动筛选的用于细粒度分析系统在广泛的语言现象上的性能评估数据集。该数据集通过自然语言推理(NLI)问题进行句子理解评估。请使用在MulitNLI上训练的模型为该数据集生成预测。
cola语言可接受性语料库(Corpus of Linguistic Acceptability)由来自语言学理论书籍和期刊文章的英语可接受性判断组成。每个例子都是一个用词序列注释的句子,标注该句子是否为合乎语法的英语句子。
mnli它是一个众包收集的包含文本蕴涵注释的句子对的多类型自然语言推理语料库。给定一个前提句子和一个假设句子,任务是预测前提是否蕴涵假设(entailment),是否与假设矛盾(contradiction)或者都不是(neutral)。前提句子来自十个不同的来源,包括转录的演讲、小说和政府报告。基准的作者使用了标准测试集,并从RTE作者那里获得了私有标签,并对匹配(同领域)和不匹配(跨领域)部分进行评估。他们还使用并推荐SNLI语料库作为550k的辅助训练数据示例。
mnli_matched来自MNLI的匹配验证和测试集分割。有关详细信息,请参见“mnli”BuilderConfig。
mnli_mismatched来自MNLI的不匹配验证和测试集分割。有关详细信息,请参见“mnli”BuilderConfig。
mrpcMicrosoft Research Paraphrase Corpus(Dolan&amp; Brockett, 2005)是从在线新闻源自动提取的句子对语料库,其中包含对这些句子对进行语义等效性的人工注释。
qnli斯坦福问答数据集是一个问答数据集,由问题-段落对组成,其中段落的一句话(来自维基百科)包含对应问题的答案(由注释者编写)。该基准的作者通过在相应上下文中的每个问题和每个句子之间形成一对,并过滤掉问题和上下文句子之间词汇重叠较低的对来将任务转化为句对分类。任务是确定上下文句子是否包含问题的答案。该修改版本的原始任务取消了模型选择确切答案的要求,但同时也取消了这样的简化假设:答案始终出现在输入中,词汇重叠是可靠的线索。
qqp斯坦福问答数据集是一个问答数据集,由问题-段落对组成,其中段落的一句话(来自维基百科)包含对应问题的答案(由注释者编写)。该基准的作者通过在相应上下文中的每个问题和每个句子之间形成一对,并过滤掉问题和上下文句子之间词汇重叠较低的对来将任务转化为句对分类。任务是确定上下文句子是否包含问题的答案。该修改版本的原始任务取消了模型选择确切答案的要求,但同时也取消了这样的简化假设:答案始终出现在输入中,词汇重叠是可靠的线索。
rte识别文本蕴含(RTE)数据集来自一系列年度的文本蕴涵挑战。基准的作者将RTE1(Dagan等,2006)、RTE2(Bar Haim等,2006)、RTE3(Giampiccolo等,2007)和RTE5(Bentivogli等,2009)的数据合并了起来。例子是基于新闻和维基百科文本构建的。基准的作者将所有数据集都转换为两类分割,其中针对三类数据集,将中立和矛盾折叠为不蕴涵,以保持一致性。
sst2斯坦福情感树库由电影评论句子和其情感的人工注释组成。任务是预测给定句子的情感。它使用了两种分类(积极/消极)的类别分割,只有句子级别的标签。
stsb语义文本相似性基准(Cer等,2017)是从新闻标题、视频和图像标题以及自然语言推理数据中提取的句子对的集合。每一对都经过人工注释,标有1到5的相似度分数。
wnli薇诺格拉德模式挑战(Levesque等,2011)是一项阅读理解任务,其中系统必须阅读一句带有代词的句子,并从一系列选择项中选择代词的指称。这些例子是手动构造的,以破坏简单的统计方法:每一个例子都以句子中提供的上下文信息为基础。为了将该问题转化为句对分类问题,基准的作者通过将模棱两可的代词与每个可能的指称替换,构建了句子对。任务是预测替换了代词的句子是否被原始句子蕴含。他们使用了一个小的评估集,其中包含从小说书籍中派生的新例子,该集由原始语料库的作者私下共享。虽然包含的训练集在两个类别之间平衡,但测试集在它们之间不平衡(65%不蕴涵)。此外,由于数据的一个怪异之处,开发集是对抗性的:假设有时在训练和开发示例之间共享,因此如果模型记忆了训练示例,则它们将在对应的开发集示例上预测错误的标签。与QNLI一样,每个例子都是单独评估的,因此模型在该任务上的得分与其在未转换的原始任务上的得分之间没有系统的对应关系。基准的作者将转换后的数据集称为WNLI(Winograd NLI)。
GLUE中的语言数据是英语(BCP-47 en)。
'test'的一个示例如下。
{ "premise": "The cat sat on the mat.", "hypothesis": "The cat did not sit on the mat.", "label": -1, "idx: 0 }cola
'train'的一个示例如下。
{ "sentence": "Our friends won't buy this analysis, let alone the next one we propose.", "label": 1, "id": 0 }mnli
'train'的一个示例如下。
{ "premise": "Conceptually cream skimming has two basic dimensions - product and geography.", "hypothesis": "Product and geography are what make cream skimming work.", "label": 1, "idx": 0 }mnli_matched
'test'的一个示例如下。
{ "premise": "Hierbas, ans seco, ans dulce, and frigola are just a few names worth keeping a look-out for.", "hypothesis": "Hierbas is a name worth looking out for.", "label": -1, "idx": 0 }mnli_mismatched
'test'的一个示例如下。
{ "premise": "What have you decided, what are you going to do?", "hypothesis": "So what's your decision?, "label": -1, "idx": 0 }mrpc qnli qqp rte sst2 stsb wnli
所有拆分的数据字段相同。
axtest | |
---|---|
ax | 1104 |
train | validation | test | |
---|---|---|---|
cola | 8551 | 1043 | 1063 |
train | validation_matched | validation_mismatched | test_matched | test_mismatched | |
---|---|---|---|---|---|
mnli | 392702 | 9815 | 9832 | 9796 | 9847 |
validation | test | |
---|---|---|
mnli_matched | 9815 | 9796 |
validation | test | |
---|---|---|
mnli_mismatched | 9832 | 9847 |
@article{warstadt2018neural, title={Neural Network Acceptability Judgments}, author={Warstadt, Alex and Singh, Amanpreet and Bowman, Samuel R}, journal={arXiv preprint arXiv:1805.12471}, year={2018} } @inproceedings{wang2019glue, title={{GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding}, author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.}, note={In the Proceedings of ICLR.}, year={2019} } Note that each GLUE dataset has its own citation. Please see the source to see the correct citation for each contained dataset.
感谢 @patpizio , @jeswan , @thomwolf , @patrickvonplaten , @mariamabarham 添加此数据集。