数据集:
ruanchaves/porsimplessent
大小:
1K<n<10KPorSimplesSent 是一个用于研究葡萄牙语句子可读性评估的句对和三元组的葡萄牙语语料库。该数据集包含 4,968 个句对和 1,141 个三元组的句子,结合了 PorSimples 语料库的三个级别:Original、Natural 和 Strong。该数据集可用于句对分类、句子检索和可读性评估等任务。
数据集支持以下任务:
该数据集包含葡萄牙语的句对。
{ 'sentence1': '-- Parece que o assassinato de civis iraquianos transformou-se em um fenômeno cotidiano e banal -- disse o presidente da Associação Iraquiana dos Direitos Humanos, Muayed al-Anbaki.', 'sentence2': '-- Parece que o assassinato de civis iraquianos transformou-se em um fenômeno comum e banal -- disse o presidente da Associação Iraquiana dos Direitos Humanos, Muayed al-Anbaki.', 'label': 2, 'production_id': 3, 'level': 'ORI->NAT', 'changed': 'S', 'split': 'N', 'sentence_text_from': '-- Parece que o assassinato de civis iraquianos transformou-se em um fenômeno cotidiano e banal -- disse o presidente da Associação Iraquiana dos Direitos Humanos, Muayed al-Anbaki.', 'sentence_text_to': '-- Parece que o assassinato de civis iraquianos transformou-se em um fenômeno comum e banal -- disse o presidente da Associação Iraquiana dos Direitos Humanos, Muayed al-Anbaki.' }
该数据集具有以下字段:
该数据集分为训练集、验证集和测试集。每个拆分的大小如下:
Train | Validation | Test | |
---|---|---|---|
Number of examples | 4,976 | 1,446 | 1,697 |
作者未提供标准拆分。我们在确保同一文档的句对不会出现在多个拆分中的同时,自行创建了拆分。
PorSimplesSent 数据集由 Sidney Evaldo Leal 在 ICMC-USP 的硕士学位期间在 Dra. Sandra Maria Aluísio 和 Dra. Magali Sanches Duran 的指导下创建。计算语言学跨机构中心 - NILC (Núcleo Interinstitucional de Linguística Computacional) 也对数据集的创建做出了贡献。
PorSimplesSent 数据集采用 CC BY 4.0 许可证发布。许可条款可在 https://creativecommons.org/licenses/by/4.0/ 找到。
如果您在您的工作中使用了该数据集,请引用以下出版物:\
@inproceedings{leal2018pss, author = {Sidney Evaldo Leal and Magali Sanches Duran and Sandra Maria Aluíso}, title = {A Nontrivial Sentence Corpus for the Task of Sentence Readability Assessment in Portuguese}, booktitle = {Proceedings of the 27th International Conference on Computational Linguistics (COLING 2018)}, year = {2018}, pages = {401-413}, month = {August}, date = {20-26}, address = {Santa Fe, New Mexico, USA}, }
感谢 @ruanchaves 添加了该数据集。