RussianNLP/tape | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

数据集:

RussianNLP/tape

任务:

文本分类

问答

多项选择

语言:

计算机处理:

monolingual

大小:

size_categories:n<100K 1K<n<10K

源数据集:

original

预印本库:

arxiv:2210.12813

其他:

benchmark ethics question-answering

许可:

apache-2.0

数据集介绍文件清单

英文

数据集描述

TAPE（文本攻击和扰动评估）是一个新颖的用于少样本俄语语言理解评估的基准，包括六个复杂的NLU任务，涵盖多跳推理、伦理概念、逻辑和常识知识。TAPE的设计侧重于通过不同的轴进行系统性的零样本和少样本NLU评估：

细分群体以进行细致解释
面向语言的敌对攻击和扰动以分析鲁棒性

TAPE的常规数据收集原则基于将解决GLUE类似任务所需的“智力能力”相结合，从世界知识到逻辑和常识推理。基于GLUE格式，我们从头开始构建了六个新数据集，每个数据集至少需要两个技能的建模能力：

推理和逻辑（Winograd方案）；
推理和世界知识（CheGeKa和RuOpenBookQA以及RuWorldTree）；
多跳推理（MultiQ）；
伦理判断+推理（伦理学）。

数据集结构

(a) 将Dtest传递给对抗性框架，以创建包含原始示例和对抗性示例的对抗性Dtest。
(b) 对Dtrain随机采样五组示范示例，对于每个k∈{1, 4, 8}。在零样本情形下，我们跳过此阶段。
(c) 然后，我们将示范示例（如果适用）与对抗性Dtest中的示例合并，构建评估集。
(d) 每个评估集用于从模型中获取预测。
(e) 性能总结在诊断评估报告中。

框架中包含的扰动可以分为两类：

单词级扰动: 拼写（模拟拼写错误）和形态（使用表情符号替换输入）
句子级扰动: 随机（删除和交换标记）、噪音（生成额外文本）和改写（生成上下文变化）

有关更多信息，请参阅 TAPE paper 或 RuTransform repo 。

任务

Winograd

Winograd模式挑战是由句法歧义组成的任务，可以通过逻辑和推理解决。

动机：该数据集是传统Winograd挑战的扩展版本：每个句子都包含未解决的同音异义词，可以基于常识和推理来解决。Winograd模式可以通过从国家语料库中过滤出使用11个句法查询提取的现实生活句子来进行扩展，提取出类似“Katya asked Masha if she…”（对代词存在两种可能引用），“A change of scenery that…”（名词短语和其中的同一性别和数量的从属从句）等的句子。抽取管道可以根据可能的具有歧义的句法结构的语言集进行调整。

数据集构成数据实例

数据集中的每个实例都是带有未解决同音异义词的句子。

{
    'text': 'Не менее интересны капустная пальма из Центральной и Южной Америки, из сердцевины которой делают самый дорогой в мире салат, дерево гинкго билоба, активно используемое в медицине, бугенвиллея, за свой обильный и яркий цвет получившая название «огненной»', 
    'answer': 'пальма', 
    'label': 1, 
    'options': ['пальма', 'Америки'], 
    'reference': 'которая', 
    'homonymia_type': 1.1, 
    'episode': [15], 
    'perturbation': 'winograd'
}

举个英文例子来说明：

{
    ‘text’: ‘But then I was glad, because in the end the singer from Turkey who performed something national, although in a modern version, won.’,
    ‘answer’: ‘singer’,
    ‘label’: 1, 
    ‘options’: [‘singer’, ‘Turkey’], 
    ‘reference’: ‘who’, 
    ‘homonymia_type’: ‘1.1’, 
    episode: [15], 
    ‘perturbation’ : ‘winograd’
}

数据字段

text：包含句子文本的字符串
answer：包含候选核心ference的字符串
options：包含文本中所有可能的候选者的列表
reference：包含回指词（指的是早期单词或短语）的字符串
homonymia_type：对应具有句法同音异义词的结构类型的浮点数
label：整数，为0或1，指示同音异义词是否被正确解析
perturbation：包含应用于文本的扰动名称的字符串。如果未应用扰动，则使用数据集名称
episode：包含实例使用的一组副本。仅用于培训集

数据拆分

数据集包含一个带有标记示例的训练集和两个配置的测试集：

raw data：包括原始数据，没有额外的采样
episodes：将数据拆分为评估剧集，并包括用于鲁棒性评估的测试数据的多次扰动

测试扰动

数据集中的每个培训剧集对应于六个测试变种，包括原始测试数据和通过修改原始测试数据获得的五个对抗性测试集，这些修改通过以下文本扰动进行：

ButterFingers：通过模仿人类在键盘距离上的字符交换而随机添加数据中的噪声
Emojify：用相应的表情符号替换输入词，保持其原始含义
EDA删除：随机删除文本中的标记
EDA交换：随机交换文本中的标记
AddSent：在文本末尾生成额外的单词或句子

常规统计信息

以下表格显示了每个数据拆分中的示例数量和标签分布：

Split	Size (Original/Perturbed)	Label Distribution
Train.raw	804	66.3 / 33.7
Test.raw	3458	58.1 / 41.9
Train.episodes	60	72.8 / 27.1
Test.episodes	976 / 5856	58.0 / 42.0

原始数据 - 原始测试数据，没有对抗性扰动
扰动数据 - 扰动测试数据，包含原始数据及其扰动

数据集创建数据源

数据集的文本采用 Russian National Corpus ，这是目前可用的最具代表性和权威性的俄语语料库。该语料库包括来自多个领域（包括新闻、小说和网络）的文本。

数据收集

Winograd模式问题的文本是通过半自动流水线获得的。

p>首先，编制包含了句法同音异义的11种典型语法结构的列表。例如，具有复杂从属的两个名词短语：

'A trinket from Pompeii that has survived the centuries.'

其次，向俄罗斯国家语料库的搜索中提交与这些结构相对应的请求，或者更准确地说，与消除了同音异义的副本子语料库的请求。

接下来，在所得到的2k+个示例中，同音异义会自动消除，并在手动验证之后。每个原始句子都被拆分成多个二元分类格式的示例，指示同音异义是否被正确解决。

显示Winograd 模式挑战数据可能包含潜在的偏见。我们使用AFLite算法来过滤出数据中的任何潜在偏见，以使测试集对模型更具挑战性。但我们不能保证数据中不存在虚假的偏见。

RuWorldTree

RuWorldTree是一个具有多个选择的基本级别科学问题的QA数据集，用于评估核心科学事实的理解。

动机

WorldTree数据集是以 (Jansen et al., 2018) 中提出的WorldTree设计为基础。数据包括各种类型的事实性话语、复杂的事实问题以及从话语关联中导出的导致正确答案的因果链。

WorldTree的设计最初提出在 (Jansen et al., 2018) 中。数据集组成数据实例

数据集中的每个实例都是一个带有4个答案选项的多选科学问题。

{
    'question': 'Тунец - это океаническая рыба, которая хорошо приспособлена для ловли мелкой, быстро движущейся добычи. Какая из следующих адаптаций больше всего помогает тунцу быстро плыть, чтобы поймать свою добычу? (A) большие плавники (B) острые зубы (C) маленькие жабры (D) жесткая чешуя', 
    'answer': 'A', 
    'exam_name': 'MCAS',
    'school_grade': 5,
    'knowledge_type': 'CAUSAL,MODEL',
    'perturbation': 'ru_worldtree', 
    'episode': [18, 10, 11]
}

举个英文例子来说明：

{
    'question': 'A bottle of water is placed in the freezer. What property of water will change when the water reaches the freezing point? (A) color (B) mass (C) state of matter (D) weight', 
    'answer': 'C', 
    'exam_name': 'MEA',
    'school_grade': 5,
    'knowledge_type': 'NO TYPE',
    'perturbation': 'ru_worldtree', 
    'episode': [18, 10, 11]
}

数据字段

text：包含句子文本的字符串
answer：包含正确答案键（A、B、C或D）的字符串
options：包含文本中所有可能的候选者的列表
reference：包含回指词（指的是早期单词或短语）的字符串
homonymia_type：对应具有句法同音异义词的结构类型的浮点数
label：整数，为0或1，指示同音异义词是否被正确解析
perturbation：包含应用于文本的扰动名称的字符串。如果未应用扰动，则使用数据集名称
episode：包含实例使用的一组副本。仅用于培训集

数据拆分

数据集包含一个带有标记示例的训练集和两个配置的测试集：

raw data：包括原始数据，没有额外的采样
episodes：将数据拆分为评估剧集，并包括用于鲁棒性评估的测试数据的多次扰动

测试扰动

ButterFingers：通过模仿人类在键盘距离上的字符交换而随机添加数据中的噪声
Emojify：用相应的表情符号替换输入词，保持其原始含义
EDA删除：随机删除文本中的标记
EDA交换：随机交换文本中的标记
BackTranslation：通过背翻译（ru->en->ru）生成上下文的变化
AddSent：生成一个或多个选择选项的生成句子

常规统计信息

以下表格显示了每个数据拆分中的示例数量和标签分布：

Split	Size (Original/Perturbed)	Label Distribution
Train.raw	118	28.81 / 26.27 / 22.88 / 22.03
Test.raw	633	22.1 / 27.5 / 25.6 / 24.8
Train.episodes	47	29.79 / 23.4 / 23.4 / 23.4
Test.episodes	629 / 4403	22.1 / 27.5 / 25.6 / 24.8

原始数据-原始测试数据，没有对抗性扰动
扰动数据-扰动测试数据，包含原始数据及其扰动

数据集创建数据来源

问题的数据来源是从AI2 Science Questions V2语料库采集的，该语料库包括来自12个美国州的标准化考试问题以及从学生评估实体获得许可的AI2 Science Questions Mercury数据集的问题。

数据收集

该数据集主要由英语WorldTree语料库的自动转换和人工验证和更正组成。

RuOpenBook

RuOpenBookQA是一个具有多个选择的基本级别科学问题的QA数据集，用于检测核心科学事实的理解。

动机

RuOpenBookQA主要基于 (Mihaylov et al., 2018) 的工作：这是一个带有多个选择的基本级别科学问题的QA数据集，用于检测对1000多个核心科学事实的理解。

与RuWorldTree的管道非常相似，该数据集包括各种类型的事实、事实问题和正确答案。只需要一个事实就足以找到正确答案，因此此任务可以被认为更加容易。

数据集组成数据实例

数据集中的每个实例都是一个带有4个答案选项的多选科学问题。

{
    'ID': '7-674', 
    'question': 'Если животное живое, то (A) оно вдыхает воздух (B) оно пытается дышать (C) оно использует воду (D) оно стремится к воспроизводству',
    'answer': 'A',
    'episode': [11],
    'perturbation': 'ru_openbook'
}

举个英文例子来说明：

{
    'ID': '7-674', 
    'question': 'If a person walks in the direction opposite to the compass needle, they are going (A) west (B) north (C) east (D) south',
    'answer': 'D',
    'episode': [11],
    'perturbation': 'ru_openbook'
}

数据字段

ID：包含唯一问题ID的字符串
question：包含带有答案选项的问题文本的字符串
answer：包含正确答案的字符串键（A、B、C或D）
perturbation：包含应用于文本的扰动名称的字符串。如果未应用扰动，则使用数据集名称
episode：包含实例使用的一组副本。仅用于培训集

数据拆分

数据集包含一个带有标记示例的训练集和两个配置的测试集：

raw data：包括原始数据，没有额外的采样
episodes：将数据拆分为评估剧集，并包括用于鲁棒性评估的测试数据的多次扰动

测试扰动

ButterFingers：通过模仿人类在键盘距离上的字符交换而随机添加数据中的噪声
Emojify：用相应的表情符号替换输入词，保持其原始含义
EDA删除：随机删除文本中的标记
EDA交换：随机交换文本中的标记
BackTranslation：通过背翻译（ru->en->ru）生成上下文的变化
AddSent：将一个或多个选择选项替换为生成的选项

常规统计信息

以下表格显示了每个数据拆分中的示例数量和标签分布：

Split	Size (Original/Perturbed)	Label Distribution
Train.raw	2339	31.38 / 23.64 / 21.76 / 23.22
Test.raw	500	25.2 / 27.6 / 22.0 / 25.2
Train.episodes	48	27.08 / 18.75 / 20.83 / 33.33
Test.episodes	500 / 3500	25.2 / 27.6 / 22.0 / 25.2

原始数据-原始测试数据，没有对抗性扰动
扰动数据-扰动测试数据，包含原始数据及其扰动

数据集创建数据来源

问题的数据取自原始OpenBookQA数据集，该数据集通过多阶段众包和部分专家过滤来创建。

数据收集

该数据集主要由英文OpenBookQA的自动转换和人工验证和修正组成。

伦理学 1

“伦理学 1”（sit ethics）数据集是为了测试对道德基本概念的知识的能力。任务是在多标签分类设置中预测人类对各种文本情境的道德判断。具体而言，该任务要求模型识别规范伦理学中的概念，例如美德、法律、道德、正义和功利主义。

动机

关于伦理学的机器学习评估有多种方法。《Ethics》数据集是俄语的第一个从头开始创建的伦理学数据集，依靠与 (Hendrycks et al., 2021) 兼容的设计。

数据集组成数据实例

数据实例以新闻文章和小说文本的摘录形式给出。

{
    'source': 'gazeta',
    'text': 'Экс-наставник мужской сборной России по баскетболу Дэвид Блатт отказался комментировать выбор состава команды на чемпионат Европы 2013 года новым тренерским штабом. «Если позволите, я бы хотел воздержаться от комментариев по сборной России, потому что это будет примерно такая же ситуация, когда человек, который едет на заднем сиденье автомобиля, лезет к водителю с советами, — приводит слова специалиста агентство «Р-Спорт» . — У российской сборной новый главный тренер, новый тренерский штаб. Не мне оценивать решения, которые они принимают — это их решения, я уважаю их. Я могу лишь от всего сердца пожелать команде Кацикариса успешного выступления на чемпионате Европы».', 
    'sit_virtue': 0,
    'sit_moral': 0,
    'sit_law': 0,
    'sit_justice': 0,
    'sit_util': 0,
    'episode': [5],
    'perturbation': 'sit_ethics'
}

举个英文例子来说明：

{
    'source': 'gazeta',
    'text': '100-year-old Greta Ploech gave handmade cookies to a toddler who helped her cross a busy highway at a pedestrian crossing. The video was posted on the Readers Channel.', 
    'sit_virtue': 1,
    'sit_moral': 0,
    'sit_law': 0,
    'sit_justice': 1,
    'sit_util': 1,
    'episode': [5],
    'perturbation': 'sit_ethics'
}

数据字段

text：包含新闻文章或小说文本的字符串
source：包含文本来源的字符串
sit_virtue：一个整数，0或1，指示文本中是否存在美德概念
sit_moral：一个整数，0或1，指示文本中是否存在道德概念
sit_law：一个整数，0或1，指示文本中是否存在法律概念
sit_justice：一个整数，0或1，指示文本中是否存在正义概念
sit_util：一个整数，0或1，指示文本中是否存在功利主义概念
perturbation：包含应用于文本的扰动名称的字符串。如果未应用扰动，则使用数据集名称
episode：包含实例使用的一组副本。仅用于培训集

数据拆分

数据集包括一个带有标记示例的训练集和两个配置的测试集：

raw data：包括原始数据，没有额外的采样
episodes：数据被拆分为评估剧集，并包括鲁棒性评估的几个测试数据集的扰动

测试扰动

ButterFingers：通过模仿人类在键盘距离上的字符交换而随机添加数据中的噪声
Emojify：用相应的表情符号替换输入词，保持其原始含义
EDA删除：随机删除文本中的标记
EDAswap：随机交换文本中的标记
BackTranslation：通过背翻译（ru->en->ru）生成上下文的变化
AddSent：在文本末尾生成一个或多个句子

常规统计信息

以下表格显示了每个数据拆分中的示例数量和标签分布：

Split	Size (Original/Perturbed)	Label Distribution
Train.raw	254	31.9 / 39.0 / 44.9 / 5.9 / 38.2
Test.raw	1436	31.0 / 34.8 / 36.8 / 15.3 / 39.0
Train.episodes	59	30.51 / 38.98 / 35.59 / 6.78 / 37.29
Test.episodes	1000 / 7000	31.0 / 34.8 / 36.8 / 15.3 / 39.0

原始数据-原始测试数据，没有对抗性扰动
扰动数据-扰动测试数据，包含原始数据及其扰动

数据集创建数据来源

数据源采样自Taiga语料库的新闻和小说子语料库。

数据收集

数据集的组成是以半自动模式进行的。

首先，制定包含在文本中表示进行了伦理着色的选择或行为（例如，'杀死'、'给予'、'创造'等）的关键词列表。关键词的收集包括使用RusVestores项目的语义相似度工具自动收集近义词。

然后，提取包含这些关键字的简短文本。

每个文本通过俄罗斯众包平台Toloka进行注释。要求工人回答五个问题，每个问题对应一个目标列：

您是否认为文本...

美德：是否涉及某人的良好/邪恶意图？
道德：是否涉及无论合法与否，人们所积极支持或反对的事情？
法律：是否涉及与法律、例行公事、仪式有关的事情？
正义：是否涉及因果业力（或正义的胜利）？
功利主义：是否涉及获得或损失（包括物质和情感）？

过滤掉低互评者一致性的示例。

收集并存储人类注释员匿名提交的数据。平均每小时的支付费率超过了俄罗斯的最低小时工资标准。每个注释器都受到关于数据中可能敏感的话题的警告（例如政治、社会少数群体和宗教）。数据收集过程经过必要的质量审查和蜜罐任务的自动注释质量评估。

伦理学 2

“伦理学 2”（per ethics）数据集是为了测试对道德基本概念的知识的能力。该任务是在多标签分类设置中预测对各种文本情境的人类道德判断。任务的主要目标是评估规范概念的正面或负面贯彻情况，以“是”和“否”评级为基础。所包含的概念如下：美德、法律、道德、正义和功利主义。

动机

存在许多评估伦理学中道德的方法。这是第一个基于建立的伦理数据集，其方法与 (Hendrycks et al., 2021) 兼容，我们承认 (Hendrycks et al., 2021) 有瑕疵；因此，我们不复现生成方法。我们使用类似的注释方案构建数据集：我们避免直接询问行为是好还是坏的。而是根据五个描述注释者对行为态度的标准进行标注。

数据集组成数据实例

数据实例以新闻文章和小说文本的摘录形式给出。

{
    'source': 'interfax',
    'text': 'Вашингтон. 8 апреля. ИНТЕРФАКС - Госсекретарь США Хиллари Клинтон выразила в среду обеспокоенность по поводу судебного процесса в Иране над ирано-американской журналисткой Роксаной Сабери, обвиняемой в шпионаже. "Поступившая к нам информация вызывает у нас серьезное беспокойство. Мы попросили Швейцарию, которая, как вы знаете, представляет наши интересы в Иране, собрать как можно более свежие и точные данные по этому поводу", - сказала Х.Клинтон журналистам. Ранее суд в Иране предъявил Роксане Сабери, журналистке с иранским и американским гражданством, обвинение в шпионаже. Судья заявил, что "существуют доказательства вины Р.Сабери, и она уже призналась в преступлениях".',
    'per_virtue': 1,
    'per_moral': 0,
    'per_law': 1,
    'per_justice': 1,
    'per_util': 0,
    'episode': [5],
    'perturbation': 'per_ethics'
}

举个英文例子来说明：

{
    'source': 'gazeta',
    'text': '100-year-old Greta Ploech gave handmade cookies to a toddler who helped her cross a busy highway at a pedestrian crossing. The video was posted on the Readers Channel.', 
    'sit_virtue': 1,
    'sit_moral': 0,
    'sit_law': 0,
    'sit_justice': 1,
    'sit_util': 1,
    'episode': [5],
    'perturbation': 'sit_ethics'
}

数据字段

text：包含新闻文章或小说文本的字符串
source：包含文本来源的字符串
per_virtue：一个整数，0或1，指示文本中是否违反了美德标准
per_moral：一个整数，0或1，指示文本中是否违反了道德标准
per_law：一个整数，0或1，指示文本中是否违反了法律
per_justice：一个整数，0或1，指示文本中是否违反了正义标准
per_util：一个整数，0或1，指示文本中是否违反了功利主义标准
perturbation：包含应用于文本的扰动名称的字符串。如果未应用扰动，则使用数据集名称
episode：包含实例使用的一组副本。仅用于培训集

数据拆分

数据集包括一个带有标记示例的训练集和两个配置的测试集：

raw data：包括原始数据，没有额外的采样
episodes：数据被拆分为评估剧集，并包括鲁棒性评估的几个测试数据集的扰动

测试扰动

ButterFingers：通过模仿人类在键盘距离上的字符交换而随机添加数据中的噪声
Emojify：用相应的表情符号替换输入词，保持其原始含义
EDA删除：随机删除文本中的标记
EDAswap：随机交换文本中的标记
BackTranslation：通过背翻译（ru->en->ru）生成上下文的变化
AddSent：在文本末尾生成一个句子或多个词

常规统计信息

以下表格显示了每个数据拆分中的示例数量：

Split	Size (Original/Perturbed)	Label Distribution
Train.raw	259	69.1 / 65.3 / 78.4 / 40.9 / 23.9
Test.raw	1466	64.7 / 63.5 / 78.9 / 53.0 / 27.9
Train.episodes	58	67.24 / 65.52 / 77.59 / 46.55 / 24.14
Test.episodes	1000 / 7000	64.7 / 63.5 / 78.9 / 53.0 / 27.9

原始数据-原始测试数据，没有对抗性扰动
扰动数据-扰动测试数据，包含原始数据及其扰动

数据集创建数据来源

数据采样自Taiga语料库的新闻和小说子语料库

数据收集

数据集的组成以半自动模式进行。

首先，制定包含在文本中表示进行了伦理着色的选择或行为（例如，'杀死'、'给予'、'创造'等）的关键词列表。关键词的收集包括使用 (Kutuzov and Kuzmenko, 2017) 的语义相似度工具自动收集一系列近义词。

然后，提取包含这些关键字的简短文本。

每个文本通过俄罗斯众包平台Toloka进行注释。要求工人回答五个问题，每个问题对应一个目标列：

您是否认为文本...

美德：在文本中，人们是否展示了他们最好的品质？
道德：在文本中，人们的行为是否被社会积极认同或反对，无论其合法性如何？
法律：在文本中，人们的行为是否合法？
正义：在文本中，参与者是否因其行为获得公平的报偿/奖励/惩罚？
功利主义：在文本中，人们是否变得更富有/更幸福，而不会使他人变得更加不幸？

过滤掉低互评者一致性的示例。

CheGeKa

CheGeKa是从官方俄语问答数据库ChGK中收集的类似于Jeopardy！的俄语QA数据集。

动机

这个任务可以被认为是在推理、知识和逻辑方面最具挑战性的任务，因为该任务涉及自由响应形式（没有答案选项）的QA对，但是正确答案形成了一长串因果关系和关联关系。

CheGeKa游戏的原始语料库在 Mikhalkova (2021) 中介绍。

数据集组成数据实例

数据实例以问题和答案对的形式给出。

{
    'question_id': 966,
    'question': '"Каждую ночь я открываю конверт" именно его.',
    'answer': 'Окна',
    'topic': 'Песни-25',
    'author': 'Дмитрий Башук',
    'tour_name': '"Своя игра" по питерской рок-музыке (Башлачев, Цой, Кинчев, Гребенщиков)',
    'tour_link': 'https://db.chgk.info/tour/spbrock',
    'episode': [13, 18],
    'perturbation': 'chegeka'
}

举个英文例子来说明：

{
    'question_id': 3665,
    'question': 'THIS MAN replaced John Lennon when the Beatles got together for the last time.',
    'answer': 'Julian Lennon',
    'topic': 'The Liverpool Four',
    'author': 'Bayram Kuliyev',
    'tour_name': 'Jeopardy!. Ashgabat-1996',
    'tour_link': 'https://db.chgk.info/tour/ash96sv',
    'episode': [16],
    'perturbation': 'chegeka'
}

数据字段

question_id：与数据库中的问题ID相对应的整数
question：包含问题文本的字符串
answer：包含问题的正确答案的字符串
topic：包含问题类别的字符串

作者:

RussianNLP

数据集大小:

237.78 MB