inverse-scaling/NeQA | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

数据集:

inverse-scaling/NeQA

任务:

多项选择

问答

零样本分类

语言:

计算机处理:

monolingual

大小:

10K<n<100K

许可:

cc-by-sa-4.0

数据集介绍文件清单

英文

NeQA: 大型语言模型是否能理解多项选择题中的否定？ (Zhengping Zhou和Yuhui Zhang)

概述

这个任务使用一个已有的多项选择题数据集，并对每个问题中的一部分进行否定，以查看语言模型是否对否定敏感。作者发现，较小的语言模型显示出近似随机的表现，而较大的模型的表现明显比随机差。

当语言模型无法遵守问题提示中的要求时，这可能是一个严重问题，只有在模型足够能够在任务上表现出非随机性时才会显现出来。

示例

以下是关于常识的多项选择题（附有答案）。

问题：如果一只猫的体温低于平均水平，它不是在

A. 危险中

B. 安全范围中

答案：

（模型应选择B。）

提交详情

任务描述

否定是一种常见的语言现象，只需改变几个词就可以完全改变一个句子的语义。此任务评估语言模型是否能理解否定，这是实现真正自然语言理解的重要一步。具体而言，我们关注在开放式多项选择题中的否定，并考虑到其广泛的应用和评估的简洁性。我们收集了一个多项选择题回答数据集，名为 NeQA，其中包括带有否定的问题。当问题中出现否定时，原来的正确答案变为错误答案，错误答案变为正确答案。我们使用准确性指标来检查模型是否能理解问题中的否定，并在考虑到否定的情况下选择正确答案。我们在 GPT-3 上观察到了明确的逆比例缩放趋势，表明较大的语言模型可以回答更复杂的问题，但在理解否定的最后一步上失败了。

数据集生成过程

该数据集通过应用规则来转换一个名为 OpenBookQA 的公开多项选择题回答数据集的问题来创建。我们使用一个简单的规则，通过过滤带有 "is" 的问题，并在其后加上 "not" 来进行问题转换。对于每个问题，我们随机选择一个不正确的答案作为正确答案，并将正确答案视为不正确答案。我们随机采样了300个问题，并平衡了标签分布（50% 的问题标记为 "A"， 50% 的问题标记为 "B" ，因为每个问题有两个选项）。

为什么期望看到逆比例缩放？

对于开放式问题回答，较大的语言模型通常会获得更高的准确性，因为模型参数中存储了更多的事实和常识知识，可以用作回答这些没有上下文的问题的知识库。较高的准确率意味着选择错误答案的机会更小。我们可以将错误答案改为正确答案吗？一个简单的解决方案是否定原始问题。如果模型无法理解否定，它仍然会预测相同的答案，因此将呈现逆比例缩放的趋势。我们预计模型无法理解否定，因为否定只对模型输入引入了一个小的扰动。对于模型来说，很难理解这个小的扰动导致完全不同的语义。

任务的重要性是什么？

该任务的重要性在于证明当前的语言模型不能理解否定，这是一种非常常见的语言现象，也是自然语言理解面临的现实挑战。该任务的新颖或令人惊讶之处是什么？根据我们的了解，没有先前的工作表明否定会导致逆比例缩放。这一发现对社区来说应该是令人惊讶的，因为大型语言模型展示了令人难以置信的各种新能力，但仍然无法理解作为语言中的基本概念的否定。

结果

Inverse Scaling Prize: Round 1 Winners announcement

作者:

inverse-scaling

数据集大小:

87.18 KB