英文

solar3 数据集卡片

数据集摘要

Šolar* 是包含5485篇学校文本(如作文)的开发语料库,这些文本是由斯洛文尼亚中学(15-19岁)的学生和小学7-9年级(13-15岁)的学生以及少量来自6年级学生编写的。该语料库的一部分(1516篇文本)使用教师标注了修订它们的错误,标注系统的标签描述在此文档中可获取 https://www.clarin.si/repository/xmlui/bitstream/handle/11356/1589/Smernice-za-oznacevanje-korpusa-Solar_V1.1.pdf (以斯洛文尼亚语)。

(*) 将"š"发音为"sh",如"shoe"中的"sh"。

默认情况下,数据集以句子级别提供(125867个实例):每个实例包含源句子(原始句子)和目标句子(已修正的句子)。请注意,实例中的源句子或目标句子可能缺失-这通常发生在将源句子标记为多余或教师添加新句子时。此外,源句子或目标句子可能出现在多个实例中-例如,当一个句子被分成多个句子时。

还有一种选择可以通过明确提供正确的配置将实例聚合到文档级别或段落级别:

datasets.load_dataset("cjvt/solar3", "paragraph_level")`
datasets.load_dataset("cjvt/solar3", "document_level")`  

支持的任务和排行榜

错误修正,例如在标记或序列级别进行错误修正,作为标记或序列分类或文本到文本的生成。

语言

斯洛文尼亚语。

数据集结构

数据实例

数据集的一个样例实例:

{
    'id_doc': 'solar1', 
    'doc_title': 'KUS-G-slo-1-GO-E-2009-10001', 
    'is_manually_validated': True, 
    'src_tokens': ['”', 'Ne', 'da', 'sovražim', ',', 'da', 'ljubim', 'sem', 'na', 'svetu', '”', ',', 'izreče', 'Antigona', 'v', 'bran', 'kralju', 'Kreonu', 'za', 'svoje', 'nasprotno', 'mišljenje', 'pred', 'smrtjo', '.'], 
    'src_ling_annotations': {
        # truncated for conciseness
        'lemma': ['”', 'ne', 'da', 'sovražiti', ...], 
        'ana': ['mte:U', 'mte:L', 'mte:Vd', ...],		
        'msd': ['UPosTag=PUNCT', 'UPosTag=PART|Polarity=Neg', 'UPosTag=SCONJ', ...], 
        'ne_tag': [..., 'O', 'B-PER', 'O', ...],
        'space_after': [False, True, True, False, ...]
    }, 
    'tgt_tokens': ['„', 'Ne', 'da', 'sovražim', ',', 'da', 'ljubim', 'sem', 'na', 'svetu', ',', '”', 'izreče', 'Antigona', 'sebi', 'v', 'bran', 'kralju', 'Kreonu', 'za', 'svoje', 'nasprotno', 'mišljenje', 'pred', 'smrtjo', '.'], 
    # omitted for conciseness, the format is the same as in 'src_ling_annotations'
    'tgt_ling_annotations': {...}, 
    'corrections': [
        {'idx_src': [0], 'idx_tgt': [0], 'corr_types': ['Z/LOČ/nerazvrščeno']}, 
        {'idx_src': [10, 11], 'idx_tgt': [10, 11], 'corr_types': ['Z/LOČ/nerazvrščeno']}, 
        {'idx_src': [], 'idx_tgt': [14], 'corr_types': ['O/KAT/povratnost']}
    ]
}

该实例表示文档'solar1'中的一处修正(id_doc),该修正是手动分配/验证的(is_manually_validated)。具体来说,源句子含有三处错误(由corrections中的三个元素指示):

  • 标点符号变更:'”' -> '„';
  • 标点符号变更:['”', ','] -> [',', '”'](即引号内部有逗号,而不是外部);
  • 添加新词:'sebi'。

数据字段

  • id_doc:包含句子所在文档的标识名称的字符串;
  • doc_title:包含分配的文档标题的字符串;
  • is_manually_validated:一个布尔值,指示包含句子的文档是否由教师审查过;
  • src_tokens:源句子中的单词(如果没有源句子,则为[]);
  • src_ling_annotations:包含源单词的词元(键"lemma")、使用UD的形态句法描述(键"msd")和JOS/MULTEXT-East规范(键"ana")的形态句法描述,使用IOB2编码的命名实体标签(键"ne_tag")的字典(自动注释),以及间距信息(键"space_after"),即每个标记后是否有空格;
  • tgt_tokens:目标句子中的单词(如果没有目标句子,则为[]);
  • tgt_ling_annotations:包含目标单词的词元(键"lemma")、使用UD的形态句法描述(键"msd")和JOS/MULTEXT-East规范(键"ana")的形态句法描述,使用IOB2编码的命名实体标签(键"ne_tag")的字典(自动注释),以及间距信息(键"space_after"),即每个标记后是否有空格;
  • corrections:修正列表,每个修正用字典表示,包含涉及源标记的索引(idx_src)、涉及目标标记的索引(idx_tgt)和所做修正的类别(corr_types)。请注意,一个注释的修正可能有多个分配的类别,这种情况下 len(corr_types) > 1。

数据集创建

Šolar发展语料库由斯洛文尼亚中学(15-19岁)的学生和小学7-9年级(13-15岁)的学生编写的5,485篇文本组成,其中一小部分也来自6年级学生。每个文本都提供了关于学校(小学或中学)、学科、级别(年级或年份)、文本类型、地区和制作日期的信息。学校的作文是语料库的主体,而其他材料包括在课堂上创建的文本,如文本复述或描述、正式申请示例等。

该语料库的一部分(1516篇文本)使用教师标注了修订错误,使用的是在附加文档中描述的标签系统(用斯洛文尼亚语)。教师的修订是原始文件的一部分,并反映了作文批改的真实课堂情况。然后,标注员将修订内容插入到文本中,并对其进行分类。由于注释是在实际(即课堂)环境中收集的,有时可能只标注最相关的错误,例如,如果文本中存在更大的问题,则可能不会标注所有错误放置的逗号。

其他信息

数据集创建者

Špela Arhar Holdt;等人(请参阅 http://hdl.handle.net/11356/1589 获取完整列表)

许可信息

CC BY-NC-SA 4.0。

引用信息

@misc{solar3,
  title = {Developmental corpus {\v S}olar 3.0},
  author = {Arhar Holdt, {\v S}pela and Rozman, Tadeja and Stritar Ku{\v c}uk, Mojca and Krek, Simon and Krap{\v s} Vodopivec, Irena and Stabej, Marko and Pori, Eva and Goli, Teja and Lavri{\v c}, Polona and Laskowski, Cyprian and Kocjan{\v c}i{\v c}, Polonca and Klemenc, Bojan and Krsnik, Luka and Kosem, Iztok},
   url = {http://hdl.handle.net/11356/1589},
   note = {Slovenian language resource repository {CLARIN}.{SI}},
   year = {2022}
 }

贡献

感谢 @matejklemen 添加此数据集。