数据集:

ruanchaves/porsimplessent

大小:

1K<n<10K
英文

PorSimplesSent 数据集简介

数据集概要

PorSimplesSent 是一个用于研究葡萄牙语句子可读性评估的句对和三元组的葡萄牙语语料库。该数据集包含 4,968 个句对和 1,141 个三元组的句子,结合了 PorSimples 语料库的三个级别:Original、Natural 和 Strong。该数据集可用于句对分类、句子检索和可读性评估等任务。

支持的任务和排行榜

数据集支持以下任务:

  • sentence-pair-classification : 数据集可用于训练句对分类模型,即确定一句子是否比另一句子更简单,或两个句子是否等简单。该任务的成功通常通过高准确率、F1 值、精确率和召回率来衡量。

语言

该数据集包含葡萄牙语的句对。

数据集结构

数据实例

{
  'sentence1': '-- Parece que o assassinato de civis iraquianos transformou-se em um fenômeno cotidiano e banal -- disse o presidente da Associação Iraquiana dos Direitos Humanos, Muayed al-Anbaki.',
  'sentence2': '-- Parece que o assassinato de civis iraquianos transformou-se em um fenômeno comum e banal -- disse o presidente da Associação Iraquiana dos Direitos Humanos, Muayed al-Anbaki.',
  'label': 2,
  'production_id': 3,
  'level': 'ORI->NAT',
  'changed': 'S',
  'split': 'N',
  'sentence_text_from': '-- Parece que o assassinato de civis iraquianos transformou-se em um fenômeno cotidiano e banal -- disse o presidente da Associação Iraquiana dos Direitos Humanos, Muayed al-Anbaki.',
  'sentence_text_to': '-- Parece que o assassinato de civis iraquianos transformou-se em um fenômeno comum e banal -- disse o presidente da Associação Iraquiana dos Direitos Humanos, Muayed al-Anbaki.'
}

数据字段

该数据集具有以下字段:

  • sentence1 : 句对中的第一句子(字符串)。
  • sentence2 : 句对中的第二句子(字符串)。
  • label : 一个整数,表示句对中两个句子之间的关系。可能的值为 0、1 和 2,其中 0 表示 sentence1 比 sentence2 更简单,1 表示两个句子的复杂度相同,2 表示 sentence2 比 sentence1 更简单(整数)。
  • production_id : 每个句对的整数标识符(整数)。
  • level : 表示两个句子之间简化级别的字符串。可能的值有:
    • 'ORI->NAT'(原始到自然)
    • 'NAT->STR'(自然到强)
    • 'ORI->STR'(原始到强)(字符串)。
  • changed : 表示句子是否在简化过程中发生了变化的字符串。可能的值为:
    • 'S'(已变化)
    • 'N'(未变化)(字符串)。
  • split : 表示该简化级别中的句子是否分割的字符串。可能的值为:
    • 'S'(已分割)
    • 'N'(未分割)(字符串)。
  • sentence_text_from : 源句子的原始文本(字符串)。
  • sentence_text_to : 目标句子的原始文本(字符串)。

数据拆分

该数据集分为训练集、验证集和测试集。每个拆分的大小如下:

Train Validation Test
Number of examples 4,976 1,446 1,697

作者未提供标准拆分。我们在确保同一文档的句对不会出现在多个拆分中的同时,自行创建了拆分。

附加信息

数据集创建者

PorSimplesSent 数据集由 Sidney Evaldo Leal 在 ICMC-USP 的硕士学位期间在 Dra. Sandra Maria Aluísio 和 Dra. Magali Sanches Duran 的指导下创建。计算语言学跨机构中心 - NILC (Núcleo Interinstitucional de Linguística Computacional) 也对数据集的创建做出了贡献。

许可信息

PorSimplesSent 数据集采用 CC BY 4.0 许可证发布。许可条款可在 https://creativecommons.org/licenses/by/4.0/ 找到。

引用信息

如果您在您的工作中使用了该数据集,请引用以下出版物:\

@inproceedings{leal2018pss,
    author = {Sidney Evaldo Leal and Magali Sanches Duran and Sandra Maria Aluíso},
    title = {A Nontrivial Sentence Corpus for the Task of Sentence Readability Assessment in Portuguese},
    booktitle = {Proceedings of the 27th International Conference on Computational Linguistics (COLING 2018)},
    year = {2018},
    pages = {401-413},
    month = {August},
    date = {20-26},
    address = {Santa Fe, New Mexico, USA},
}

贡献者

感谢 @ruanchaves 添加了该数据集。