数据集:
gsarti/itacola
任务:
文本分类语言:
it计算机处理:
monolingual语言创建人:
expert-generated批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:2109.12053许可:
license:unknown意大利语言可接受性语料库包括近10,000个句子,取自语言文献,并由原始作者进行了二元标注。该工作受到了英文的启发。
免责声明:ItaCoLA语料库由 Digital Humanities group at FBK 在Github上托管。它在 Monolingual and Cross-Lingual Acceptability Judgments with the Italian CoLA corpus 文章中被 Daniela Trotta 、 Raffaele Guarasci 、 Elisa Leonardelli 、 Sara Tonelli 介绍。
下表摘自原始论文的表4,其中一个在意大利语上预训练的LSTM和BERT模型在语料库的训练拆分上进行微调,并分别在测试拆分(域内,内部)和[AcCompl-it]语料库的可接受性部分上进行评估(域外,域外)。模型在这两种设置下使用准确率(Acc.)和马修斯相关系数(MCC)进行评估。结果在10次运行中进行平均,并具有±标准差误差范围。
in , Acc. | in , MCC | out , Acc. | out , MCC | |
---|---|---|---|---|
LSTM | 0.794 | 0.278 ± 0.029 | 0.605 | 0.147 ± 0.066 |
ITA-BERT | 0.904 | 0.603 ± 0.022 | 0.683 | 0.198 ± 0.036 |
ItaCoLA中的语言数据为意大利语(BCP-47:it)。
评分配置包含具有可接受性判断的句子。下面是来自评分配置(默认)的训练拆分的示例。
{ "unique_id": 1, "source": "Graffi_1994", "acceptability": 1, "sentence": "Quest'uomo mi ha colpito." }
文本原样提供,没有经过进一步的预处理或标记。
字段如下:
现象配置包含从评分中手动注释的一组句子示例,用于表示9个语言现象的存在。下面是训练拆分的示例:
{ "unique_id": 1, "source": "Graffi_1994", "acceptability": 1, "sentence": "Quest'uomo mi ha colpito.", "cleft_construction": 0, "copular_construction": 0, "subject_verb_agreement": 1, "wh_islands_violations": 0, "simple": 0, "question": 0, "auxiliary": 1, "bind": 0, "indefinite_pronouns": 0 }
对于每个新字段,二进制得分的值表示相应现象的存在(1)或不存在(0)。有关每个现象的详细说明,请参阅原始论文。
config | train | test |
---|---|---|
scores | 7801 | 975 |
phenomena | 2088 | - |
有关数据集创建的更多信息,请参考原始文章 Monolingual and Cross-Lingual Acceptability Judgments with the Italian CoLA corpus 。
作者是原始数据集的策划者。如有关于此 ? 数据集版本的问题或更新,请联系gabriele.sarti996@gmail.com。
没有可用的许可信息。
如果您在工作中使用这些语料库,请引用作者。
@inproceedings{trotta-etal-2021-monolingual-cross, title = "Monolingual and Cross-Lingual Acceptability Judgments with the {I}talian {C}o{LA} corpus", author = "Trotta, Daniela and Guarasci, Raffaele and Leonardelli, Elisa and Tonelli, Sara", booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2021", month = nov, year = "2021", address = "Punta Cana, Dominican Republic", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-emnlp.250", doi = "10.18653/v1/2021.findings-emnlp.250", pages = "2929--2940" }