数据集:
orai-nlp/basqueGLUE
语言:
eu计算机处理:
monolingual大小:
100K<n<1M语言创建人:
expert-generated批注创建人:
expert-generated源数据集:
original许可:
cc-by-nc-sa-4.0自然语言理解(NLU)技术在过去几年中取得了显着进展,多任务基准测试如GLUE是评估这种改进的关键,以一种强大且普遍的方式。这些基准测试考虑了一组广泛且多样化的需要某种形式的语言理解的NLU任务,超出了对表面文本线索的检测。然而,它们的开发成本高且依赖于语言,因此只适用于少数语言。
我们介绍了BasqueGLUE,这是Basque语的第一个NLU基准测试,它是根据先前存在的数据集和类似于GLUE和SuperGLUE构建的标准精制而成。BasqueGLUE在开放许可下免费提供。
Dataset | |Train| | |Val| | |Test| | Task | Metric | Domain |
---|---|---|---|---|---|---|
NERCid | 51,539 | 12,936 | 35,855 | NERC | F1 | News |
NERCood | 64,475 | 14,945 | 14,462 | NERC | F1 | News, Wikipedia |
FMTODeu_intent | 3,418 | 1,904 | 1,087 | Intent classification | F1 | Dialog system |
FMTODeu_slot | 19,652 | 10,791 | 5,633 | Slot filling | F1 | Dialog system |
BHTCv2 | 8,585 | 1,857 | 1,854 | Topic classification | F1 | News |
BEC2016eu | 6,078 | 1,302 | 1,302 | Sentiment analysis | F1 | |
VaxxStance | 864 | 206 | 312 | Stance detection | MF1* | |
QNLIeu | 1,764 | 230 | 238 | QA/NLI | Acc | Wikipedia |
WiCeu | 408,559 | 600 | 1,400 | WSD | Acc | Wordnet |
EpecKorrefBin | 986 | 320 | 587 | Coreference resolution | Acc | News |
这个基准测试包括以下任务:
NERCid这个数据集包含新闻领域的句子,带有手动注释的命名实体。数据是EIEC(来自Euskaldunon Egunkaria报纸的新闻稿集合数据集,(Alegria 等人 2004年))和naiz.eus的新注释数据的合并。数据使用BIO注释方案对四个类别进行了注释:人物,组织,位置和杂项。
NERCood这个数据集包含带有手动注释的命名实体的句子。训练数据是由EIEC(来自Euskaldunon Egunkaria报纸的新闻稿集合数据集,(Alegria 等人 2004年))和naiz.eus的新注释数据合并而成的。数据使用BIO注释方案对四个类别进行了注释:人物,组织,位置和杂项。对于验证集和测试集,使用维基百科的句子按照相同的注释准则进行了注释。
FMTODeu_intent这个数据集包含从手动注释的Facebook多语言任务导向数据集(FMTOD)(Schuster 等人 2019年)中提取的话语文本和意图注释。Basque翻译数据是从为无训练数据的语言构建任务导向的对话系统:Basque案例中创建的数据集中提取的(de Lacalle 等人 2020年)。这些示例被注解为12种不同的意图类别,对应于警报、提醒或与天气相关的操作。
FMTODeu_slot这个数据集包含从手动注释的Facebook多语言任务导向数据集(FMTOD)(Schuster 等人 2019年)中提取的话语文本和序列意图参数注释,用于插槽填充任务。Basque翻译数据是从为无训练数据的语言构建任务导向的对话系统:Basque案例中创建的数据集中提取的(de Lacalle 等人 2020年)。该任务是一个类似于NERC的序列标记任务,按照BIO注释方案对11个类别进行了注释。
BHTCv2该语料库包含来自巴斯克周报 Argia 的12,296个新闻标题(简短的文章描述)。主题根据12个主题类别进行唯一分类。
BEC2016eu巴斯克选举活动2016舆论数据集(BEC2016eu)是一个用于情感分析任务的新数据集,是一个序列分类任务,其中包含有关2016年巴斯克选举活动的推文。爬行是在选举活动期间进行的(2016/09/09-2016/09/23),通过监视主要政党及其候选人进行的。推文被手动标注为积极的、消极的或中性的。
VaxxStanceVaxxStance(Agerri 等人,2021年)数据集最初提供了围绕反疫苗运动的社交媒体文本的文本和立场注释。文本被标记为针对该主题表达AGAINST、FAVOR或NEUTRAL立场的标签。
QNLIeu这个任务包括QA数据集ElkarHizketak(Otegi 等人 2020年),这是一个面向低资源的对话式问答(QA)数据集,用于通过母语志愿者创建巴斯克语的。该数据集构建在关于热门人物和组织的维基百科章节之上,包含约400个对话和1600个问题和答案对。该任务被改编为一个句对二元分类任务,遵循英语QNLI的设计(Wang 等人 2019年)。每个问题和答案对都被赋予一个指示答案是否符合问题的标签。
WiCeuWord in Context或WiC(Pilehvar and Camacho-Collados 2019)是一个词义消歧(WSD)任务,设计为一种特殊形式的句对二分类。给定两个文本片段和一个出现在两者中的多义词(在两个片段中标记出该词的范围),任务是确定该词在两个句子中是否具有相同的意义。该数据集基于EPEC-EuSemcor(Pociello 等人 2011年)有标记语料库。
EpecKorrefBinEPEC-KORREF-Bin是从EPEC-KORREF(Soraluze 等人 2012年)派生的数据集,这是一个包含手动注释的巴斯克新闻文档的语料库,我们将其转化为二元分类任务。在此任务中,模型必须预测文本中的两个提及是否指向同一个实体,这些提及可以是代词、名词或名词短语。
Leaderboard使用两个BERT基准模型的结果作为基准测试。
AVG | NERC | F_intent | F_slot | BHTC | BEC | Vaxx | QNLI | WiC | coref | |
---|---|---|---|---|---|---|---|---|---|---|
Model | F1 | F1 | F1 | F1 | F1 | MF1 | acc | acc | acc | |
12311321 | 73.23 | 81.92 | 82.52 | 74.34 | 78.26 | 69.43 | 59.30 | 74.26 | 70.71 | 68.31 |
12312321 | 73.71 | 82.30 | 82.24 | 75.64 | 78.05 | 69.89 | 63.81 | 73.84 | 71.71 | 65.93 |
NERC的结果是域内和域外NERC的平均值。
提供Basque语数据(BCP-47 eu )
'train'的一个示例如下:
{ "idx": 0, "tags": ["O", "O", "O", "O", "B-ORG", "O", ...], "tokens": ["Greba", "orokorrera", "deitu", "du", "EHk", "27rako", ...] }FMTODeu_intent
'train'的一个示例如下:
{ "idx": 0, "label": "alarm/modify_alarm", "text": "aldatu alarma 7am-tik 7pm-ra , mesedez" }FMTODeu_slot
'train'的一个示例如下:
{ "idx": 923, "tags": ["O", "B-reminder/todo", "I-datetime", "I-datetime", "B-reminder/todo"], "tokens": ["gogoratu", "zaborra", "gaur", "gauean", "ateratzea"] }BHTCv2
'test'的一个示例如下:
{ "idx": 0, "label": "Gizartea", "text": "Genero berdintasunaz, hezkuntzaz eta klase gizarteaz hamar liburu baino gehiago..." }BEC2016eu
'test'的一个示例如下:
{ "idx": 0, "label": "NEU", "text": '"Emandako hitza bete egingo dut" Urkullu\nBa galdeketa enegarrenez daramazue programan (ta zuen AHTa...)\n#I25debatea #URL"' }VaxxStance
'train'的一个示例如下:
{ "idx": 0, "label": "FAVOR", "text": "\"#COVID19 Oraingo datuak, izurriaren dinamika, txertoaren eragina eta birusaren.. }QNLIeu
'train'的一个示例如下:
{ "idx": 1, "label": "not_entailment", "question": "Zein posiziotan jokatzen du Busquets-ek?", "sentence": "Busquets 23 partidatan izan zen konbokatua eta 2 gol sartu zituen." }WiCeu
'test'的一个示例如下:
{ "idx": 16, "label": false, "word": "udal", "sentence1": "1a . Lekeitioko udal mugarteko Alde Historikoa Birgaitzeko Plan Berezia behin...", "sentence2": "Diezek kritikatu egin zuen EAJk zenbait udaletan EH gobernu taldeetatik at utzi...", "start1": 16, "start2": 40, "end1": 21, "end2": 49 }EpecKorrefBin
'train'的一个示例如下:
{ "idx": 6, "label": false, "text": "Isuntza da faborito nagusia Elantxobeko banderan . ISUNTZA trainerua da faborito nagusia bihar Elantxoben jokatuko den bandera irabazteko .", "span1_text": "Elantxobeko banderan", "span2_text": "ISUNTZA trainerua", "span1_index": 4, "span2_index": 8 }
Dataset | |Train| | |Val| | |Test| |
---|---|---|---|
NERCid | 51,539 | 12,936 | 35,855 |
NERCood | 64,475 | 14,945 | 14,462 |
FMTODeu_intent | 3,418 | 1,904 | 1,087 |
FMTODeu_slot | 19,652 | 10,791 | 5,633 |
BHTCv2 | 8,585 | 1,857 | 1,854 |
BEC2016eu | 6,078 | 1,302 | 1,302 |
VaxxStance | 864 | 206 | 312 |
QNLIeu | 1,764 | 230 | 238 |
WiCeu | 408,559 | 600 | 1,400 |
EpecKorrefBin | 986 | 320 | 587 |
我们认为BasqueGLUE对于发展Basque语的NLU工具是一项重要贡献,我们相信这将促进Basque语的技术进步。为了创建BasqueGLUE,我们参考了GLUE和SuperGLUE框架。在可能的情况下,我们重用了Basque的现有数据集,必要时调整它们以适应相应的任务格式。此外,BasqueGLUE还包括六个以前未公开的新数据集。总体而言,BasqueGLUE由九个Basque NLU任务组成,涵盖了多个领域中不同难度的各种任务。与原始的GLUE基准测试一样,任务的训练数据大小不同,这使得可以评估模型在任务之间的知识迁移能力。
[需要更多信息]
谁是源语言的生产者?[需要更多信息]
[需要更多信息]
答题者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
Gorka Urbizu [1],Iñaki San Vicente [1],Xabier Saralegi [1],Rodrigo Agerri [2]和Aitor Soroa [2]
作者的隶属关系:
[1] orai NLP Technologies
[2] HiTZ Center - Ixa,巴斯克国家卡他赫大学UPV/EHU
BasqueGLUE基准测试的每个数据集都有自己的许可证(因为它们大多数是或来源于已经存在的数据集)。有关详细信息,请参阅其各自的README文件。
在此提供了对其许可证的简要摘要:
Dataset | License |
---|---|
NERCid | CC BY-NC-SA 4.0 |
NERCood | CC BY-NC-SA 4.0 |
FMTODeu_intent | CC BY-NC-SA 4.0 |
FMTODeu_slot | CC BY-NC-SA 4.0 |
BHTCv2 | CC BY-NC-SA 4.0 |
BEC2016eu | Twitter's license + CC BY-NC-SA 4.0 |
VaxxStance | Twitter's license + CC BY 4.0 |
QNLIeu | CC BY-SA 4.0 |
WiCeu | CC BY-NC-SA 4.0 |
EpecKorrefBin | CC BY-NC-SA 4.0 |
对于基准测试的其余文件,包括加载和评估脚本,请使用以下许可证:
版权所有(C)Orai NLP Technologies。此基准测试和评估脚本采用知识共享署名相同方式共享4.0国际许可证(CC BY-SA 4.0)许可。要查看此许可证的副本,请访问 http://creativecommons.org/licenses/by/4.0/ 。
@InProceedings{urbizu2022basqueglue, author = {Urbizu, Gorka and San Vicente, Iñaki and Saralegi, Xabier and Agerri, Rodrigo and Soroa, Aitor}, title = {BasqueGLUE: A Natural Language Understanding Benchmark for Basque}, booktitle = {Proceedings of the Language Resources and Evaluation Conference}, month = {June}, year = {2022}, address = {Marseille, France}, publisher = {European Language Resources Association}, pages = {1603--1612}, abstract = {Natural Language Understanding (NLU) technology has improved significantly over the last few years and multitask benchmarks such as GLUE are key to evaluate this improvement in a robust and general way. These benchmarks take into account a wide and diverse set of NLU tasks that require some form of language understanding, beyond the detection of superficial, textual clues. However, they are costly to develop and language-dependent, and therefore they are only available for a small number of languages. In this paper, we present BasqueGLUE, the first NLU benchmark for Basque, a less-resourced language, which has been elaborated from previously existing datasets and following similar criteria to those used for the construction of GLUE and SuperGLUE. We also report the evaluation of two state-of-the-art language models for Basque on BasqueGLUE, thus providing a strong baseline to compare upon. BasqueGLUE is freely available under an open license.}, url = {https://aclanthology.org/2022.lrec-1.172} }
感谢 @richplant 将此数据集添加到hugginface。