数据集:

RussianNLP/rucola

英文

数据集名称的数据集卡片

数据集摘要

俄罗斯语言可接受性语料库(RuCoLA)是一个包含13.4k个句子的新型基准数据集,标记为可接受或不可接受。RuCoLA结合了从语言文献中手动收集的领域内句子和由九个机器翻译和改写模型生成的领域外句子。领域外数据集的目的是促进利用可接受性判断来提高语言生成的实际应用。每个不可接受的句子还附带了四个标准和机器特定的粗粒度类别的标签:形态、句法、语义和幻觉。

数据集结构

支持的任务和排行榜

语言

俄语。

数据实例

{
  "id": 19,
  "sentence": "Люк останавливает удачу от этого.",
  "label": 0,
  "error_type": "Hallucination",
  "detailed_source": "WikiMatrix"}
}

用于说明目的的英文例子:

{
  "id": 19,
  "sentence": "Luck stops luck from doing this.",
  "label": 0,
  "error_type": "Hallucination",
  "detailed_source": "WikiMatrix"}
}

数据字段

  • id(int64):句子的id。
  • sentence(str):句子。
  • label(str):目标类别。 "1"表示"可接受",而"0"表示"不可接受"。
  • error_type(str):粗粒度违规类别(形态、句法、语义或幻觉);如果句子是可接受的,则为"0"。
  • detailed_source:数据来源。

数据拆分

RuCoLA包括训练、开发和私有测试集,分为领域内(语言出版物)和领域外(自然语言生成模型生成的文本)两个子集。

  • 训练集:7869个领域内样本("data/in_domain_train.csv")。
  • 验证集:2787个领域内和领域外样本。领域内("data/in_domain_dev.csv")和领域外("data/out_of_domain_dev.csv")验证集合并为"data/dev.csv"以方便使用。
  • 测试集:2789个领域内和领域外样本("data/test.csv")。

数据集创建

策展理由

  • 领域内子集:领域内句子及其对应的作者可接受性判断是从基础语言学教材、学术出版物和方法论资料中手动获取的。
  • 领域外子集:领域外句子是由九个开源机器翻译和改写模型生成的。

数据源

Original source Transliterated source Source id
1234321 1235321 Rusgram
Тестелец, Я.Г., 2001. Введение в общий синтаксис . Федеральное государственное бюджетное образовательное учреждение высшего образования Российский государственный гуманитарный университет. Yakov Testelets. 2001. Vvedeniye v obschiy sintaksis. Russian State University for the Humanities. Testelets
Лютикова, Е.А., 2010. К вопросу о категориальном статусе именных групп в русском языке . Вестник Московского университета. Серия 9. Филология, (6), pp.36-76. Ekaterina Lutikova. 2010. K voprosu o kategorial’nom statuse imennykh grup v russkom yazyke. Moscow University Philology Bulletin. Lutikova
Митренина, О.В., Романова, Е.Е. and Слюсарь, Н.А., 2017. Введение в генеративную грамматику . Общество с ограниченной ответственностью "Книжный дом ЛИБРОКОМ". Olga Mitrenina et al. 2017. Vvedeniye v generativnuyu grammatiku. Limited Liability Company “LIBROCOM”. Mitrenina
Падучева, Е.В., 2004. Динамические модели в семантике лексики . М.: Языки славянской культуры. Elena Paducheva. 2004. Dinamicheskiye modeli v semantike leksiki. Languages of Slavonic culture. Paducheva2004
Падучева, Е.В., 2010. Семантические исследования: Семантика времени и вида в русском языке; Семантика нарратива . М.: Языки славянской культуры. Elena Paducheva. 2010. Semanticheskiye issledovaniya: Semantika vremeni i vida v russkom yazyke; Semantika narrativa. Languages of Slavonic culture. Paducheva2010
Падучева, Е.В., 2013. Русское отрицательное предложение . М.: Языки славянской культуры Elena Paducheva. 2013. Russkoye otritsatel’noye predlozheniye. Languages of Slavonic culture. Paducheva2013
Селиверстова, О.Н., 2004. Труды по семантике . М.: Языки славянской культуры Olga Seliverstova. 2004. Trudy po semantike. Languages of Slavonic culture. Seliverstova
Набор данных ЕГЭ по русскому языку Shavrina et al. 2020. 1236321 USE5, USE7, USE8
语言学出版物和资源
Original source Transliterated source Source id
1234321 1235321 Rusgram
Тестелец, Я.Г., 2001. Введение в общий синтаксис . Федеральное государственное бюджетное образовательное учреждение высшего образования Российский государственный гуманитарный университет. Yakov Testelets. 2001. Vvedeniye v obschiy sintaksis. Russian State University for the Humanities. Testelets
Лютикова, Е.А., 2010. К вопросу о категориальном статусе именных групп в русском языке . Вестник Московского университета. Серия 9. Филология, (6), pp.36-76. Ekaterina Lutikova. 2010. K voprosu o kategorial’nom statuse imennykh grup v russkom yazyke. Moscow University Philology Bulletin. Lutikova
Митренина, О.В., Романова, Е.Е. and Слюсарь, Н.А., 2017. Введение в генеративную грамматику . Общество с ограниченной ответственностью "Книжный дом ЛИБРОКОМ". Olga Mitrenina et al. 2017. Vvedeniye v generativnuyu grammatiku. Limited Liability Company “LIBROCOM”. Mitrenina
Падучева, Е.В., 2004. Динамические модели в семантике лексики . М.: Языки славянской культуры. Elena Paducheva. 2004. Dinamicheskiye modeli v semantike leksiki. Languages of Slavonic culture. Paducheva2004
Падучева, Е.В., 2010. Семантические исследования: Семантика времени и вида в русском языке; Семантика нарратива . М.: Языки славянской культуры. Elena Paducheva. 2010. Semanticheskiye issledovaniya: Semantika vremeni i vida v russkom yazyke; Semantika narrativa. Languages of Slavonic culture. Paducheva2010
Падучева, Е.В., 2013. Русское отрицательное предложение . М.: Языки славянской культуры Elena Paducheva. 2013. Russkoye otritsatel’noye predlozheniye. Languages of Slavonic culture. Paducheva2013
Селиверстова, О.Н., 2004. Труды по семантике . М.: Языки славянской культуры Olga Seliverstova. 2004. Trudy po semantike. Languages of Slavonic culture. Seliverstova
Набор данных ЕГЭ по русскому языку Shavrina et al. 2020. 1236321 USE5, USE7, USE8
机器生成的句子

数据集

Original source Source id
Mikel Artetxe and Holger Schwenk. 2019. 1237321 Tatoeba
Holger Schwenk et al. 2021. 1238321 WikiMatrix
Ye Qi et al. 2018. 1239321 TED
Alexandra Antonova and Alexey Misyurev. 2011. 12310321 YandexCorpus

模型

EasyNMT models

  • OPUS-MT。Jörg Tiedemann和Santhosh Thottingal。2020年。 OPUS-MT – Building open translation services for the World
  • M-BART50。Yuqing Tang等人。2020年。 Multilingual Translation with Extensible Multilingual Pretraining and Finetuning
  • M2M-100。Angela Fan等人。2021年。 Beyond English-Centric Multilingual Machine Translation
  • Paraphrase generation models

  • ruGPT2-Large
  • ruT5
  • mT5。Linting Xue等人。2021年。 mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer
  • 注释

    注释过程

    领域外句子在 Toloka 上经历了两阶段的注释过程,这是一个数据标记的众包平台。每个阶段都包括一个无偿培训阶段,其中包含解释、用于跟踪注释质量的控制任务以及主要注释任务。在开始之前,工作者会收到详细说明,描述任务、解释标签,并显示大量示例。该说明在培训和主要注释阶段任何时候都可用。要进入主要阶段,工作者必须通过正确标记超过70%的示例来完成培训阶段。每个经过培训的工作者都会收到一个页面,其中包含五个句子,其中一个是控制句子。我们通过三至五名工人的动态重叠收集多数票标签,然后通过响应时间和对控制任务的性能对它们进行过滤。

    • 阶段1:可接受性判断 第一个注释阶段确定给定句子是否可接受。只有被Toloka认证为俄语母语的工人并根据Toloka评分体系排名前60%的工人才可以获得项目的访问权限。每个工人在培训阶段回答30个例子。每个培训示例都附有一个解释,出现在不正确答案中。主要注释阶段有3.6k个机器生成句子。平均时薪为$2.55,是俄罗斯的最低时薪的两倍。1000多名经过培训的工人得到了报酬,但我们只保留了960名工人在控制句子上的注释质量比例超过50%的投票。

    • 阶段2:违规类别 第二阶段包括验证和注释第一阶段标记为不可接受的句子,有五个答案选项:“形态”、“句法”、“语义”、“幻觉”和“其他”。该任务被设计为多标签分类,即某些罕见情况下句子可能包含多个违规,或者可以被重新标记为可接受。我们创建了一个由30名注释员组成的团队,他们是来自俄罗斯几所大学的本科和硕士学位语言学专业的学生。我们要求学生学习CoLA、TGEA和幻觉的论文。我们还举办了一个在线研讨会,讨论论文并澄清任务的具体要求。每个学生在进入主要阶段的1300个句子之前都要完成基于平台的15个示例的培训。学生平均时薪为$5.42,并有资格获得学术课程或实习的学分。该阶段提供了作者与学生在一个群聊中直接互动的机会。我们保留每个答案独立的多数票标签,对每一页超过30秒响应时间的句子进行过滤。多个违规类别或被多数票标记为“其他”的句子将被过滤掉。

    个人和敏感信息

    注释员被告知数据中可能包含敏感主题(例如政治、文化和宗教)。

    使用数据的注意事项

    数据集的社会影响

    RuCoLA可用作可接受性分类器的训练数据,这可能有助于提高生成文本的质量。我们意识到这种文本生成的改进可能会导致语言模型被恶意使用。然而,我们的语料库可以用于训练对抗性防御和人工文本检测模型。我们为研究和开发需求提供了一个新颖的数据集,也清楚地意识到潜在的负面用途。

    偏见讨论

    虽然我们的目标是控制RuCoLA句子中高频词汇的数量,但我们认为语言模型的预训练语料库和我们的语料库之间的潜在词频分布偏移可能会引入评估中的偏见。此外,语言学出版物作为可接受性判断的主要来源代表了一个特定的领域。一方面,这可能导致在实际应用中使用RuCoLA时出现领域转移。另一方面,我们观察到领域外测试中适度的可接受性分类性能,该测试涵盖多个领域,从字幕到维基百科。

    其他已知限制

    • 数据收集 可接受性判断数据集需要一个不可接受句子的来源。从语言文献中收集判断已成为多种语言的标准实践。然而,这种方法有一些局限性。首先,许多研究对可接受性判断的可靠性和再现性提出了担忧。其次,语言学家的判断可能限制数据的代表性,因为它们可能不反映说话者倾向于产生的错误。第三,丰富可接受性判断数据集需要时间,而由于有限的资源(例如在资源有限的语言中),创建新数据集可能具有挑战性。

    • 专家与非专家 关于可接受性判断的一个开放性方法论问题是是否应该从专家或非专家讲话者那里收集这些判断。一方面,先前的语言知识可能在报告判断时引入偏见。另一方面,专业知识可能会提高语言学家的判断质量,超过非语言学家的判断。与此同时,后者往往受到对不符合语法的语言使用的个体暴露的影响。选择具有语言学背景的学生的目的是使注释质量最大化。

    • 细粒度注释 RuCoLA不可接受句子的粗粒度注释方案依赖于四个主要类别。尽管注释可以对模型错误分析有所帮助,但它限制了对语言和机器特定现象的语言模型的诊断评估范围。

    其他信息

    数据集策展人

    通信:vmikhailovhse@gmail.com

    授权信息

    我们的基线代码和可接受性标签可在Apache 2.0许可下使用。语言出版物和资源中的文本的版权(如果适用)归原作者或出版商所有。

    引用信息

    @inproceedings{mikhailov-etal-2022-rucola,
        title = "{R}u{C}o{LA}: {R}ussian Corpus of Linguistic Acceptability",
        author = "Mikhailov, Vladislav  and
          Shamardina, Tatiana  and
          Ryabinin, Max  and
          Pestova, Alena  and
          Smurov, Ivan  and
          Artemova, Ekaterina",
        booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing",
        month = dec,
        year = "2022",
        address = "Abu Dhabi, United Arab Emirates",
        publisher = "Association for Computational Linguistics",
        url = "https://aclanthology.org/2022.emnlp-main.348",
        pages = "5207--5227",
        abstract = "Linguistic acceptability (LA) attracts the attention of the research community due to its many uses, such as testing the grammatical knowledge of language models and filtering implausible texts with acceptability classifiers.However, the application scope of LA in languages other than English is limited due to the lack of high-quality resources.To this end, we introduce the Russian Corpus of Linguistic Acceptability (RuCoLA), built from the ground up under the well-established binary LA approach. RuCoLA consists of 9.8k in-domain sentences from linguistic publications and 3.6k out-of-domain sentences produced by generative models. The out-of-domain set is created to facilitate the practical use of acceptability for improving language generation.Our paper describes the data collection protocol and presents a fine-grained analysis of acceptability classification experiments with a range of baseline approaches.In particular, we demonstrate that the most widely used language models still fall behind humans by a large margin, especially when detecting morphological and semantic errors. We release RuCoLA, the code of experiments, and a public leaderboard to assess the linguistic competence of language models for Russian.",
    }
    

    其他

    有关更多详细信息,请参阅我们的 paper