英文

BasqueGLUE 数据集卡片

数据集概要

自然语言理解(NLU)技术在过去几年中取得了显着进展,多任务基准测试如GLUE是评估这种改进的关键,以一种强大且普遍的方式。这些基准测试考虑了一组广泛且多样化的需要某种形式的语言理解的NLU任务,超出了对表面文本线索的检测。然而,它们的开发成本高且依赖于语言,因此只适用于少数语言。

我们介绍了BasqueGLUE,这是Basque语的第一个NLU基准测试,它是根据先前存在的数据集和类似于GLUE和SuperGLUE构建的标准精制而成。BasqueGLUE在开放许可下免费提供。

Dataset |Train| |Val| |Test| Task Metric Domain
NERCid 51,539 12,936 35,855 NERC F1 News
NERCood 64,475 14,945 14,462 NERC F1 News, Wikipedia
FMTODeu_intent 3,418 1,904 1,087 Intent classification F1 Dialog system
FMTODeu_slot 19,652 10,791 5,633 Slot filling F1 Dialog system
BHTCv2 8,585 1,857 1,854 Topic classification F1 News
BEC2016eu 6,078 1,302 1,302 Sentiment analysis F1 Twitter
VaxxStance 864 206 312 Stance detection MF1* Twitter
QNLIeu 1,764 230 238 QA/NLI Acc Wikipedia
WiCeu 408,559 600 1,400 WSD Acc Wordnet
EpecKorrefBin 986 320 587 Coreference resolution Acc News

支持的任务和排行榜

这个基准测试包括以下任务:

NERCid

这个数据集包含新闻领域的句子,带有手动注释的命名实体。数据是EIEC(来自Euskaldunon Egunkaria报纸的新闻稿集合数据集,(Alegria 等人 2004年))和naiz.eus的新注释数据的合并。数据使用BIO注释方案对四个类别进行了注释:人物,组织,位置和杂项。

NERCood

这个数据集包含带有手动注释的命名实体的句子。训练数据是由EIEC(来自Euskaldunon Egunkaria报纸的新闻稿集合数据集,(Alegria 等人 2004年))和naiz.eus的新注释数据合并而成的。数据使用BIO注释方案对四个类别进行了注释:人物,组织,位置和杂项。对于验证集和测试集,使用维基百科的句子按照相同的注释准则进行了注释。

FMTODeu_intent

这个数据集包含从手动注释的Facebook多语言任务导向数据集(FMTOD)(Schuster 等人 2019年)中提取的话语文本和意图注释。Basque翻译数据是从为无训练数据的语言构建任务导向的对话系统:Basque案例中创建的数据集中提取的(de Lacalle 等人 2020年)。这些示例被注解为12种不同的意图类别,对应于警报、提醒或与天气相关的操作。

FMTODeu_slot

这个数据集包含从手动注释的Facebook多语言任务导向数据集(FMTOD)(Schuster 等人 2019年)中提取的话语文本和序列意图参数注释,用于插槽填充任务。Basque翻译数据是从为无训练数据的语言构建任务导向的对话系统:Basque案例中创建的数据集中提取的(de Lacalle 等人 2020年)。该任务是一个类似于NERC的序列标记任务,按照BIO注释方案对11个类别进行了注释。

BHTCv2

该语料库包含来自巴斯克周报 Argia 的12,296个新闻标题(简短的文章描述)。主题根据12个主题类别进行唯一分类。

BEC2016eu

巴斯克选举活动2016舆论数据集(BEC2016eu)是一个用于情感分析任务的新数据集,是一个序列分类任务,其中包含有关2016年巴斯克选举活动的推文。爬行是在选举活动期间进行的(2016/09/09-2016/09/23),通过监视主要政党及其候选人进行的。推文被手动标注为积极的、消极的或中性的。

VaxxStance

VaxxStance(Agerri 等人,2021年)数据集最初提供了围绕反疫苗运动的社交媒体文本的文本和立场注释。文本被标记为针对该主题表达AGAINST、FAVOR或NEUTRAL立场的标签。

QNLIeu

这个任务包括QA数据集ElkarHizketak(Otegi 等人 2020年),这是一个面向低资源的对话式问答(QA)数据集,用于通过母语志愿者创建巴斯克语的。该数据集构建在关于热门人物和组织的维基百科章节之上,包含约400个对话和1600个问题和答案对。该任务被改编为一个句对二元分类任务,遵循英语QNLI的设计(Wang 等人 2019年)。每个问题和答案对都被赋予一个指示答案是否符合问题的标签。

WiCeu

Word in Context或WiC(Pilehvar and Camacho-Collados 2019)是一个词义消歧(WSD)任务,设计为一种特殊形式的句对二分类。给定两个文本片段和一个出现在两者中的多义词(在两个片段中标记出该词的范围),任务是确定该词在两个句子中是否具有相同的意义。该数据集基于EPEC-EuSemcor(Pociello 等人 2011年)有标记语料库。

EpecKorrefBin

EPEC-KORREF-Bin是从EPEC-KORREF(Soraluze 等人 2012年)派生的数据集,这是一个包含手动注释的巴斯克新闻文档的语料库,我们将其转化为二元分类任务。在此任务中,模型必须预测文本中的两个提及是否指向同一个实体,这些提及可以是代词、名词或名词短语。

Leaderboard

使用两个BERT基准模型的结果作为基准测试。

AVG NERC F_intent F_slot BHTC BEC Vaxx QNLI WiC coref
Model F1 F1 F1 F1 F1 MF1 acc acc acc
12311321 73.23 81.92 82.52 74.34 78.26 69.43 59.30 74.26 70.71 68.31
12312321 73.71 82.30 82.24 75.64 78.05 69.89 63.81 73.84 71.71 65.93

NERC的结果是域内和域外NERC的平均值。

语言

提供Basque语数据(BCP-47 eu )

数据集结构

数据实例

NERCid/NERCood

'train'的一个示例如下:

{
  "idx": 0,
  "tags": ["O", "O", "O", "O", "B-ORG", "O", ...],
  "tokens": ["Greba", "orokorrera", "deitu", "du", "EHk", "27rako", ...]
}
FMTODeu_intent

'train'的一个示例如下:

{
  "idx": 0,
  "label": "alarm/modify_alarm", 
  "text": "aldatu alarma 7am-tik 7pm-ra , mesedez"
}
FMTODeu_slot

'train'的一个示例如下:

{
  "idx": 923, 
  "tags": ["O", "B-reminder/todo", "I-datetime", "I-datetime", "B-reminder/todo"], 
  "tokens": ["gogoratu", "zaborra", "gaur", "gauean", "ateratzea"]
}
BHTCv2

'test'的一个示例如下:

{
  "idx": 0, 
  "label": "Gizartea", 
  "text": "Genero berdintasunaz, hezkuntzaz eta klase gizarteaz hamar liburu baino gehiago..."
}
BEC2016eu

'test'的一个示例如下:

{
  "idx": 0,
  "label": "NEU",
  "text": '"Emandako hitza bete egingo dut" Urkullu\nBa galdeketa enegarrenez daramazue programan (ta zuen AHTa...)\n#I25debatea #URL"'
}
VaxxStance

'train'的一个示例如下:

{
  "idx": 0, 
  "label": "FAVOR", 
  "text": "\"#COVID19 Oraingo datuak, izurriaren dinamika, txertoaren eragina eta birusaren..
}
QNLIeu

'train'的一个示例如下:

{
  "idx": 1, 
  "label": "not_entailment", 
  "question": "Zein posiziotan jokatzen du Busquets-ek?", 
  "sentence": "Busquets 23 partidatan izan zen konbokatua eta 2 gol sartu zituen."
}
WiCeu

'test'的一个示例如下:

{
  "idx": 16, 
  "label": false, 
  "word": "udal", 
  "sentence1": "1a . Lekeitioko udal mugarteko Alde Historikoa Birgaitzeko Plan Berezia behin...", 
  "sentence2": "Diezek kritikatu egin zuen EAJk zenbait udaletan EH gobernu taldeetatik at utzi...", 
  "start1": 16, 
  "start2": 40, 
  "end1": 21, 
  "end2": 49
}
EpecKorrefBin

'train'的一个示例如下:

{
  "idx": 6, 
  "label": false, 
  "text": "Isuntza da faborito nagusia Elantxobeko banderan . ISUNTZA trainerua da faborito nagusia bihar Elantxoben jokatuko den bandera irabazteko .", 
  "span1_text": "Elantxobeko banderan", 
  "span2_text": "ISUNTZA trainerua", 
  "span1_index": 4, 
  "span2_index": 8
  }

数据字段

NERCid
  • tokens:字符串特征的列表
  • tags:实体标签的列表,可能的值包括人物(PER),位置(LOC),组织(ORG),杂项(MISC)
  • idx:int32特征
NERCood
  • tokens:字符串特征的列表
  • tags:实体标签的列表,可能的值包括人物(PER),位置(LOC),组织(ORG),杂项(MISC)
  • idx:int32特征
FMTODeu_intent
  • text:字符串特征
  • label:意图标签,可能的值包括:
    • alarm/cancel_alarm
    • alarm/modify_alarm
    • alarm/set_alarm
    • alarm/show_alarms
    • alarm/snooze_alarm
    • alarm/time_left_on_alarm
    • reminder/cancel_reminder
    • reminder/set_reminder
    • reminder/show_reminders
    • weather/checkSunrise
    • weather/checkSunset
    • weather/find
  • idx:int32特征
FMTODeu_slot
  • tokens:字符串特征的列表
  • tags:意图标签的列表,可能的值包括:
    • datetime
    • location
    • negation
    • alarm/alarm_modifier
    • alarm/recurring_period
    • reminder/noun
    • reminder/todo
    • reminder/reference
    • reminder/recurring_period
    • weather/attribute
    • weather/noun
  • idx:int32特征
BHTCv2
  • text:字符串特征
  • label:极性标签,可能的值包括中性(NEU),消极(N),积极(P)
  • idx:int32特征
BEC2016eu
  • text:字符串特征
  • label:主题标签,可能的值包括:
    • Ekonomia
    • Euskal Herria
    • Euskara
    • Gizartea
    • Historia
    • Ingurumena
    • Iritzia
    • Komunikazioa
    • Kultura
    • Nazioartea
    • Politika
    • Zientzia
  • idx:int32特征
VaxxStance
  • text:字符串特征
  • label:立场标签,可能的值包括AGAINST,FAVOR,NONE
  • idx:int32特征
QNLIeu
  • question:字符串特征
  • sentence:字符串特征
  • label:推理标签,可能的值包括推理,不推理
  • idx:int32特征
WiCeu
  • word:字符串特征
  • sentence1:字符串特征
  • sentence2:字符串特征
  • label:布尔标签,指示是否有相同意义,可能的值包括true,false
  • start1:整数特征,表示第一个句子中单词出现的字符位置
  • start2:整数特征,表示第二个句子中单词出现的字符位置
  • end1:整数特征,表示第一个句子中单词出现的字符位置的结束
  • end2:整数特征,表示第二个句子中单词出现的字符位置的结束
  • idx:int32特征
EpecKorrefBin
  • text:字符串特征
  • label:布尔类别标签,可能的值包括true,false
  • span1_text:字符串特征
  • span2_text:字符串特征
  • span1_index:整数特征,指示文本中span1_text特征出现的标记索引
  • span2_index:整数特征,指示文本中span2_text特征出现的标记索引
  • idx:int32特征

数据拆分

Dataset |Train| |Val| |Test|
NERCid 51,539 12,936 35,855
NERCood 64,475 14,945 14,462
FMTODeu_intent 3,418 1,904 1,087
FMTODeu_slot 19,652 10,791 5,633
BHTCv2 8,585 1,857 1,854
BEC2016eu 6,078 1,302 1,302
VaxxStance 864 206 312
QNLIeu 1,764 230 238
WiCeu 408,559 600 1,400
EpecKorrefBin 986 320 587

数据集创建

策划理由

我们认为BasqueGLUE对于发展Basque语的NLU工具是一项重要贡献,我们相信这将促进Basque语的技术进步。为了创建BasqueGLUE,我们参考了GLUE和SuperGLUE框架。在可能的情况下,我们重用了Basque的现有数据集,必要时调整它们以适应相应的任务格式。此外,BasqueGLUE还包括六个以前未公开的新数据集。总体而言,BasqueGLUE由九个Basque NLU任务组成,涵盖了多个领域中不同难度的各种任务。与原始的GLUE基准测试一样,任务的训练数据大小不同,这使得可以评估模型在任务之间的知识迁移能力。

数据源

初始数据收集和规范化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

答题者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏差讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集创建者

Gorka Urbizu [1],Iñaki San Vicente [1],Xabier Saralegi [1],Rodrigo Agerri [2]和Aitor Soroa [2]

作者的隶属关系:

[1] orai NLP Technologies

[2] HiTZ Center - Ixa,巴斯克国家卡他赫大学UPV/EHU

许可信息

BasqueGLUE基准测试的每个数据集都有自己的许可证(因为它们大多数是或来源于已经存在的数据集)。有关详细信息,请参阅其各自的README文件。

在此提供了对其许可证的简要摘要:

Dataset License
NERCid CC BY-NC-SA 4.0
NERCood CC BY-NC-SA 4.0
FMTODeu_intent CC BY-NC-SA 4.0
FMTODeu_slot CC BY-NC-SA 4.0
BHTCv2 CC BY-NC-SA 4.0
BEC2016eu Twitter's license + CC BY-NC-SA 4.0
VaxxStance Twitter's license + CC BY 4.0
QNLIeu CC BY-SA 4.0
WiCeu CC BY-NC-SA 4.0
EpecKorrefBin CC BY-NC-SA 4.0

对于基准测试的其余文件,包括加载和评估脚本,请使用以下许可证:

版权所有(C)Orai NLP Technologies。此基准测试和评估脚本采用知识共享署名相同方式共享4.0国际许可证(CC BY-SA 4.0)许可。要查看此许可证的副本,请访问 http://creativecommons.org/licenses/by/4.0/

引用信息

@InProceedings{urbizu2022basqueglue,
  author    = {Urbizu, Gorka  and  San Vicente, Iñaki  and  Saralegi, Xabier  and  Agerri, Rodrigo  and  Soroa, Aitor},
  title     = {BasqueGLUE: A Natural Language Understanding Benchmark for Basque},
  booktitle      = {Proceedings of the Language Resources and Evaluation Conference},
  month          = {June},
  year           = {2022},
  address        = {Marseille, France},
  publisher      = {European Language Resources Association},
  pages     = {1603--1612},
  abstract  = {Natural Language Understanding (NLU) technology has improved significantly over the last few years and multitask benchmarks such as GLUE are key to evaluate this improvement in a robust and general way. These benchmarks take into account a wide and diverse set of NLU tasks that require some form of language understanding, beyond the detection of superficial, textual clues. However, they are costly to develop and language-dependent, and therefore they are only available for a small number of languages. In this paper, we present BasqueGLUE, the first NLU benchmark for Basque, a less-resourced language, which has been elaborated from previously existing datasets and following similar criteria to those used for the construction of GLUE and SuperGLUE. We also report the evaluation of two state-of-the-art language models for Basque on BasqueGLUE, thus providing a strong baseline to compare upon. BasqueGLUE is freely available under an open license.},
  url       = {https://aclanthology.org/2022.lrec-1.172}
}

贡献

感谢 @richplant 将此数据集添加到hugginface。