数据集:
RussianNLP/russian_super_glue
现代通用语言模型和转换器(如BERT、ELMo、XLNet、RoBERTa等)需要进行正确的比较和评估。在过去的一年中,新的模型和预训练转移学习方法在各种语言理解任务中取得了显著的性能提升。
我们提供了基于任务的测试方法,典型的任务是“强人工智能”任务,包括逻辑、常识和推理。遵循GLUE和SuperGLUE的方法,我们提供了一组针对一般语言理解和领导模型的测试任务。
首次开发了一个完整的适用于俄罗斯语言的测试,类似于英语的测试。许多数据集是首次组合的,并且还提供了具有可比较结果的俄罗斯语言模型的领导模型榜单。
除了少数增加之外,支持的任务与原始的SuperGLUE任务等同。
Task Name | Equiv. to |
---|---|
Linguistic Diagnostic for Russian | Broadcoverage Diagnostics (AX-b) |
Russian Commitment Bank (RCB) | CommitmentBank (CB) |
Choice of Plausible Alternatives for Russian language (PARus) | Choice of Plausible Alternatives (COPA) |
Russian Multi-Sentence Reading Comprehension (MuSeRC) | Multi-Sentence Reading Comprehension (MultiRC) |
Textual Entailment Recognition for Russian (TERRa) | Recognizing Textual Entailment (RTE) |
Russian Words in Context (based on RUSSE) | Words in Context (WiC) |
The Winograd Schema Challenge (Russian) | The Winograd Schema Challenge (WSC) |
Yes/no Question Answering Dataset for the Russian (DaNetQA) | BoolQ |
Russian Reading Comprehension with Commonsense Reasoning (RuCoS) | Reading Comprehension with Commonsense Reasoning (ReCoRD) |
所有任务都是用俄语。
请注意,测试集中没有标签,这由-1的值表示。
LiDiRus“test”示例如下:
{ "sentence1": "Новая игровая консоль доступна по цене.", "sentence2": "Новая игровая консоль недоступна по цене.", "knowledge": "", "lexical-semantics": "Morphological negation", "logic": "Negation", "predicate-argument-structure": "", "idx": 10, "label": 1 }RCB
“train”/“dev”示例如下:
{ "premise": "— Пойдём пообедаем. Я с утра ничего не ел. Отель, как видишь, весьма посредственный, но мне сказали, что в здешнем ресторане отлично готовят.", "hypothesis": "В здешнем ресторане отлично готовят.", "verb": "сказать", "negation": "no_negation", "idx": 10, "label": 2 }
“test”示例如下:
{ "premise": "Я уверен, что вместе мы победим. Да, парламентское большинство думает иначе.", "hypothesis": "Вместе мы проиграем.", "verb": "думать", "negation": "no_negation", "idx": 10, "label": -1 }PARus
“train”/“dev”示例如下:
{ "premise": "Женщина чинила кран.", "choice1": "Кран подтекал.", "choice2": "Кран был выключен.", "question": "cause", "idx": 10, "label": 0 }
“test”示例如下:
{ "premise": "Ребятам было страшно.", "choice1": "Их вожатый рассказал им историю про призрака.", "choice2": "Они жарили маршмеллоу на костре.", "question": "cause", "idx": 10, "label": -1 }MuSeRC
“train”/“dev”示例如下:
{ "paragraph": "(1) Но люди не могут существовать без природы, поэтому в парке стояли железобетонные скамейки — деревянные моментально ломали. (2) В парке бегали ребятишки, водилась шпана, которая развлекалась игрой в карты, пьянкой, драками, «иногда насмерть». (3) «Имали они тут и девок...» (4) Верховодил шпаной Артемка-мыло, с вспененной белой головой. (5) Людочка сколько ни пыталась усмирить лохмотья на буйной голове Артемки, ничего у неё не получалось. (6) Его «кудри, издали напоминавшие мыльную пену, изблизя оказались что липкие рожки из вокзальной столовой — сварили их, бросили комком в пустую тарелку, так они, слипшиеся, неподъёмно и лежали. (7) Да и не ради причёски приходил парень к Людочке. (8) Как только её руки становились занятыми ножницами и расчёской, Артемка начинал хватать её за разные места. (9) Людочка сначала увёртывалась от хватких рук Артемки, а когда не помогло, стукнула его машинкой по голове и пробила до крови, пришлось лить йод на голову «ухажористого человека». (10) Артемка заулюлюкал и со свистом стал ловить воздух. (11) С тех пор «домогания свои хулиганские прекратил», более того, шпане повелел Людочку не трогать.", "question": "Как развлекались в парке ребята?", "answer": "Развлекались игрой в карты, пьянкой, драками, снимали они тут и девок.", "idx": { "paragraph": 0, "question": 2, "answer": 10 }, "label": 1 }
“test”示例如下:
{ "paragraph": "\"(1) Издательство Viking Press совместно с компанией TradeMobile выпустят мобильное приложение, посвященное Анне Франк, передает The Daily Telegraph. (2) Программа будет включать в себя фрагменты из дневника Анны, озвученные британской актрисой Хеленой Бонэм Картер. (3) Помимо этого, в приложение войдут фотографии и видеозаписи, документы из архива Фонда Анны Франк, план здания в Амстердаме, где Анна с семьей скрывались от нацистов, и факсимильные копии страниц дневника. (4) Приложение, которое получит название Anne Frank App, выйдет 18 октября. (5) Интерфейс программы будет англоязычным. (6) На каких платформах будет доступно Anne Frank App, не уточняется. Анна Франк родилась в Германии в 1929 году. (7) Когда в стране начались гонения на евреев, Анна с семьей перебрались в Нидерланды. (8) С 1942 года члены семьи Франк и еще несколько человек скрывались от нацистов в потайных комнатах дома в Амстердаме, который занимала компания отца Анны. (9) В 1944 году группу по доносу обнаружили гестаповцы. (10) Обитатели \"Убежища\" (так Анна называла дом в дневнике) были отправлены в концлагеря; выжить удалось только отцу девочки Отто Франку. (11) Находясь в \"Убежище\", Анна вела дневник, в котором описывала свою жизнь и жизнь своих близких. (12) После ареста книгу с записями сохранила подруга семьи Франк и впоследствии передала ее отцу Анны. (13) Дневник был впервые опубликован в 1947 году. (14) Сейчас он переведен более чем на 60 языков.\"", "question": "Какая информация войдет в новой мобильное приложение?", "answer": "Видеозаписи Анны Франк.", "idx": { "paragraph": 0, "question": 2, "answer": 10 }, "label": -1 }TERRa
“train”/“dev”示例如下:
{ "premise": "Музей, расположенный в Королевских воротах, меняет экспозицию. На смену выставке, рассказывающей об истории ворот и их реставрации, придет «Аптека трех королей». Как рассказали в музее, посетители попадут в традиционный интерьер аптеки.", "hypothesis": "Музей закроется навсегда.", "idx": 10, "label": 1 }
“test”示例如下:
{ "premise": "Маршрутка полыхала несколько минут. Свидетели утверждают, что приезду пожарных салон «Газели» выгорел полностью. К счастью, пассажиров внутри не было, а водитель успел выскочить из кабины.", "hypothesis": "Маршрутка выгорела.", "idx": 10, "label": -1 }RUSSE
“train”/“dev”示例如下:
{ "word": "дух", "sentence1": "Завертелась в доме веселая коловерть: праздничный стол, праздничный дух, шумные разговоры", "sentence2": "Вижу: духи собралися / Средь белеющих равнин. // Бесконечны, безобразны, / В мутной месяца игре / Закружились бесы разны, / Будто листья в ноябре", "start1": 68, "start2": 6, "end1": 72, "end2": 11, "gold_sense1": 3, "gold_sense2": 4, "idx": 10, "label": 0 }
“test”示例如下:
{ "word": "доска", "sentence1": "На 40-й день после трагедии в переходе была установлена мемориальная доска, надпись на которой гласит: «В память о погибших и пострадавших от террористического акта 8 августа 2000 года».", "sentence2": "Фото с 36-летним миллиардером привлекло сеть его необычной фигурой при стойке на доске и кремом на лице.", "start1": 69, "start2": 81, "end1": 73, "end2": 85, "gold_sense1": -1, "gold_sense2": -1, "idx": 10, "label": -1 }RWSD
“train”/“dev”示例如下:
{ "text": "Женя поблагодарила Сашу за помощь, которую она оказала.", "span1_index": 0, "span2_index": 6, "span1_text": "Женя", "span2_text": "она оказала", "idx": 10, "label": 0 }
“test”示例如下:
{ "text": "Мод и Дора видели, как через прерию несутся поезда, из двигателей тянулись клубы черного дыма. Ревущие звуки их моторов и дикие, яростные свистки можно было услышать издалека. Лошади убежали, когда они увидели приближающийся поезд.", "span1_index": 22, "span2_index": 30, "span1_text": "свистки", "span2_text": "они увидели", "idx": 10, "label": -1 }DaNetQA
“train”/“dev”示例如下:
{ "question": "Вреден ли алкоголь на первых неделях беременности?", "passage": "А Бакингем-Хоуз и её коллеги суммировали последствия, найденные в обзорных статьях ранее. Частые случаи задержки роста плода, результатом чего является укороченный средний срок беременности и сниженный вес при рождении. По сравнению с нормальными детьми, дети 3-4-недельного возраста демонстрируют «менее оптимальную» двигательную активность, рефлексы, и ориентацию в пространстве, а дети 4-6 лет показывают низкий уровень работы нейроповеденческих функций, внимания, эмоциональной экспрессии, и развития речи и языка. Величина этих влияний часто небольшая, частично в связи с независимыми переменными: включая употребление во время беременности алкоголя/табака, а также факторы среды . У детей школьного возраста проблемы с устойчивым вниманием и контролем своего поведения, а также незначительные с ростом, познавательными и языковыми способностями.", "idx": 10, "label": 1 }
“test”示例如下:
{ "question": "Вредна ли жесткая вода?", "passage": "Различают временную жёсткость, обусловленную гидрокарбонатами кальция и магния Са2; Mg2, и постоянную жёсткость, вызванную присутствием других солей, не выделяющихся при кипячении воды: в основном, сульфатов и хлоридов Са и Mg. Жёсткая вода при умывании сушит кожу, в ней плохо образуется пена при использовании мыла. Использование жёсткой воды вызывает появление осадка на стенках котлов, в трубах и т. п. В то же время, использование слишком мягкой воды может приводить к коррозии труб, так как, в этом случае отсутствует кислотно-щелочная буферность, которую обеспечивает гидрокарбонатная жёсткость. Потребление жёсткой или мягкой воды обычно не является опасным для здоровья, однако есть данные о том, что высокая жёсткость способствует образованию мочевых камней, а низкая — незначительно увеличивает риск сердечно-сосудистых заболеваний. Вкус природной питьевой воды, например, воды родников, обусловлен именно присутствием солей жёсткости.", "idx": 100, "label": -1 }RuCoS
“train”/“dev”示例如下:
{ "passage": "В Абхазии 24 августа на досрочных выборах выбирают нового президента. Кто бы ни стал победителем, возможности его будут ограничены, говорят эксперты, опрошенные DW. В Абхазии 24 августа проходят досрочные выборы президента не признанной международным сообществом республики. Толчком к их проведению стали массовые протесты в конце мая 2014 года, в результате которых со своего поста был вынужден уйти действующий президент Абхазии Александр Анкваб. Эксперты называют среди наиболее перспективных кандидатов находящегося в оппозиции политика Рауля Хаджимбу, экс-главу службы безопасности Аслана Бжанию и генерала Мираба Кишмарию, исполняющего обязанности министра обороны. У кого больше шансов\n\"Ставки делаются на победу Хаджимбы.\n@highlight\nВ Швеции задержаны двое граждан РФ в связи с нападением на чеченского блогера\n@highlight\nТуризм в эпоху коронавируса: куда поехать? И ехать ли вообще?\n@highlight\nКомментарий: Россия накануне эпидемии - виноватые назначены заранее", "query": "Несмотря на то, что Кремль вложил много денег как в @placeholder, так и в Южную Осетию, об экономическом восстановлении данных регионов говорить не приходится, считает Хальбах: \"Многие по-прежнему живут в полуразрушенных домах и временных жилищах\".", "entities": [ "DW.", "Абхазии ", "Александр Анкваб.", "Аслана Бжанию ", "Мираба Кишмарию,", "РФ ", "Рауля Хаджимбу,", "Россия ", "Хаджимбы.", "Швеции " ], "answers": [ "Абхазии" ], "idx": { "passage": 500, "query": 500 } }
“test”示例如下:
{ "passage": "Почему и как изменится курс белорусского рубля? Какие инструменты следует предпочесть населению, чтобы сохранить сбережения, DW рассказали финансовые аналитики Беларуси. На последних валютных торгах БВФБ 2015 года в среду, 30 декабря, курс белорусского рубля к доллару - 18569, к евро - 20300, к российскому рублю - 255. В 2016 году белорусскому рублю пророчат падение как минимум на 12 процентов к корзине валют, к которой привязан его курс. А чтобы избежать потерь, белорусам советуют диверсифицировать инвестиционные портфели. Чем обусловлены прогнозные изменения котировок белорусского рубля, и какие финансовые инструменты стоит предпочесть, чтобы минимизировать риск потерь?\n@highlight\nВ Германии за сутки выявлено более 100 новых заражений коронавирусом\n@highlight\nРыночные цены на нефть рухнули из-за провала переговоров ОПЕК+\n@highlight\nВ Италии за сутки произошел резкий скачок смертей от COVID-19", "query": "Последнее, убежден аналитик, инструмент для узкого круга профессиональных инвесторов, культуры следить за финансовым состоянием предприятий - такой, чтобы играть на рынке корпоративных облигаций, - в @placeholder пока нет.", "entities": [ "DW ", "Беларуси.", "Германии ", "Италии ", "ОПЕК+" ], "answers": [], "idx": { "passage": 500, "query": 500 } }
[需要更多信息]
test | |
---|---|
LiDiRus | 1104 |
train | validation | test | |
---|---|---|---|
RCB | 438 | 220 | 438 |
train | validation | test | |
---|---|---|---|
PARus | 400 | 100 | 500 |
train | validation | test | |
---|---|---|---|
MuSeRC | 500 | 100 | 322 |
train | validation | test | |
---|---|---|---|
TERRa | 2616 | 307 | 3198 |
train | validation | test | |
---|---|---|---|
RUSSE | 19845 | 8508 | 18892 |
train | validation | test | |
---|---|---|---|
RWSD | 606 | 204 | 154 |
train | validation | test | |
---|---|---|---|
DaNetQA | 1749 | 821 | 805 |
train | validation | test | |
---|---|---|---|
RuCoS | 72193 | 7577 | 7257 |
[需要更多信息]
[需要更多信息]
源语言的制作者是谁?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
我们的所有数据集都是根据MIT许可证发布的。
@article{shavrina2020russiansuperglue, title={RussianSuperGLUE: A Russian Language Understanding Evaluation Benchmark}, author={Shavrina, Tatiana and Fenogenova, Alena and Emelyanov, Anton and Shevelev, Denis and Artemova, Ekaterina and Malykh, Valentin and Mikhailov, Vladislav and Tikhonova, Maria and Chertok, Andrey and Evlampiev, Andrey}, journal={arXiv preprint arXiv:2010.15925}, year={2020} } @misc{fenogenova2022russian, title={Russian SuperGLUE 1.1: Revising the Lessons not Learned by Russian NLP models}, author={Alena Fenogenova and Maria Tikhonova and Vladislav Mikhailov and Tatiana Shavrina and Anton Emelyanov and Denis Shevelev and Alexandr Kukushkin and Valentin Malykh and Ekaterina Artemova}, year={2022}, eprint={2202.07791}, archivePrefix={arXiv}, primaryClass={cs.CL} }
感谢 @slowwavesleep 添加此数据集。