数据集:
cjvt/solar3
Šolar* 是包含5485篇学校文本(如作文)的开发语料库,这些文本是由斯洛文尼亚中学(15-19岁)的学生和小学7-9年级(13-15岁)的学生以及少量来自6年级学生编写的。该语料库的一部分(1516篇文本)使用教师标注了修订它们的错误,标注系统的标签描述在此文档中可获取 https://www.clarin.si/repository/xmlui/bitstream/handle/11356/1589/Smernice-za-oznacevanje-korpusa-Solar_V1.1.pdf (以斯洛文尼亚语)。
(*) 将"š"发音为"sh",如"shoe"中的"sh"。
默认情况下,数据集以句子级别提供(125867个实例):每个实例包含源句子(原始句子)和目标句子(已修正的句子)。请注意,实例中的源句子或目标句子可能缺失-这通常发生在将源句子标记为多余或教师添加新句子时。此外,源句子或目标句子可能出现在多个实例中-例如,当一个句子被分成多个句子时。
还有一种选择可以通过明确提供正确的配置将实例聚合到文档级别或段落级别:
datasets.load_dataset("cjvt/solar3", "paragraph_level")` datasets.load_dataset("cjvt/solar3", "document_level")`
错误修正,例如在标记或序列级别进行错误修正,作为标记或序列分类或文本到文本的生成。
斯洛文尼亚语。
数据集的一个样例实例:
{ 'id_doc': 'solar1', 'doc_title': 'KUS-G-slo-1-GO-E-2009-10001', 'is_manually_validated': True, 'src_tokens': ['”', 'Ne', 'da', 'sovražim', ',', 'da', 'ljubim', 'sem', 'na', 'svetu', '”', ',', 'izreče', 'Antigona', 'v', 'bran', 'kralju', 'Kreonu', 'za', 'svoje', 'nasprotno', 'mišljenje', 'pred', 'smrtjo', '.'], 'src_ling_annotations': { # truncated for conciseness 'lemma': ['”', 'ne', 'da', 'sovražiti', ...], 'ana': ['mte:U', 'mte:L', 'mte:Vd', ...], 'msd': ['UPosTag=PUNCT', 'UPosTag=PART|Polarity=Neg', 'UPosTag=SCONJ', ...], 'ne_tag': [..., 'O', 'B-PER', 'O', ...], 'space_after': [False, True, True, False, ...] }, 'tgt_tokens': ['„', 'Ne', 'da', 'sovražim', ',', 'da', 'ljubim', 'sem', 'na', 'svetu', ',', '”', 'izreče', 'Antigona', 'sebi', 'v', 'bran', 'kralju', 'Kreonu', 'za', 'svoje', 'nasprotno', 'mišljenje', 'pred', 'smrtjo', '.'], # omitted for conciseness, the format is the same as in 'src_ling_annotations' 'tgt_ling_annotations': {...}, 'corrections': [ {'idx_src': [0], 'idx_tgt': [0], 'corr_types': ['Z/LOČ/nerazvrščeno']}, {'idx_src': [10, 11], 'idx_tgt': [10, 11], 'corr_types': ['Z/LOČ/nerazvrščeno']}, {'idx_src': [], 'idx_tgt': [14], 'corr_types': ['O/KAT/povratnost']} ] }
该实例表示文档'solar1'中的一处修正(id_doc),该修正是手动分配/验证的(is_manually_validated)。具体来说,源句子含有三处错误(由corrections中的三个元素指示):
Šolar发展语料库由斯洛文尼亚中学(15-19岁)的学生和小学7-9年级(13-15岁)的学生编写的5,485篇文本组成,其中一小部分也来自6年级学生。每个文本都提供了关于学校(小学或中学)、学科、级别(年级或年份)、文本类型、地区和制作日期的信息。学校的作文是语料库的主体,而其他材料包括在课堂上创建的文本,如文本复述或描述、正式申请示例等。
该语料库的一部分(1516篇文本)使用教师标注了修订错误,使用的是在附加文档中描述的标签系统(用斯洛文尼亚语)。教师的修订是原始文件的一部分,并反映了作文批改的真实课堂情况。然后,标注员将修订内容插入到文本中,并对其进行分类。由于注释是在实际(即课堂)环境中收集的,有时可能只标注最相关的错误,例如,如果文本中存在更大的问题,则可能不会标注所有错误放置的逗号。
Špela Arhar Holdt;等人(请参阅 http://hdl.handle.net/11356/1589 获取完整列表)
CC BY-NC-SA 4.0。
@misc{solar3, title = {Developmental corpus {\v S}olar 3.0}, author = {Arhar Holdt, {\v S}pela and Rozman, Tadeja and Stritar Ku{\v c}uk, Mojca and Krek, Simon and Krap{\v s} Vodopivec, Irena and Stabej, Marko and Pori, Eva and Goli, Teja and Lavri{\v c}, Polona and Laskowski, Cyprian and Kocjan{\v c}i{\v c}, Polonca and Klemenc, Bojan and Krsnik, Luka and Kosem, Iztok}, url = {http://hdl.handle.net/11356/1589}, note = {Slovenian language resource repository {CLARIN}.{SI}}, year = {2022} }
感谢 @matejklemen 添加此数据集。