数据集:

snow_simplified_japanese_corpus

任务:

翻译

语言:

en ja

计算机处理:

translation

大小:

10K<n<100K

语言创建人:

found

批注创建人:

crowdsourced other

源数据集:

original

许可:

cc-by-4.0
英文

SNOW T15和T23数据集卡(简化日语语料库)

数据集摘要

  • SNOW T15:日语语言的简化语料库。该语料库包含50,000个手动简化和对齐的句子。此语料库包含原始句子、简化句子和原始句子的英文翻译。它可用于自动文本简化以及将简单的日语翻译成英语和反之亦然。核心词汇仅限于2,000个词,选取时考虑了诸多因素,如意义保持、变化、简单性和UniDic词段划分标准。详情请参阅日语简化解释页面( http://www.jnlp.org/research/Japanese_simplification )。原始文本来自“small_parallel_enja:50k En/Ja用于测试SMT方法的并行语料库”,这是一个用于机器翻译的双语语料库。

  • SNOW T23:基于SNOW T15重新编写的35,000个易于日语(简单日语词汇)的扩展语料库。原始文本来自“田中语料库”( http://www.edrdg.org/wiki/index.php/Tanaka_Corpus )。

支持的任务和排行榜

它可用于日语的自动文本简化,以及将简单的日语翻译成英语和反之亦然。

语言

日语、简化日语和英语。

数据集结构

数据实例

SNOW T15是xlsx文件,包含ID、“#日本語(原文)”(日语(原始))、“#やさしい日本語”(简化日语)、“#英語(原文)”(英语(原始))的字段。SNOW T23是xlsx文件,包含ID、“#日本語(原文)”(日语(原始))、“#やさしい日本語”(简化日语)、“#英語(原文)”(英语(原始))和“#固有名詞”(专有名词)的字段。

数据字段

  • ID:句子ID。
  • original_ja:原始日语句子。
  • simplified_ja:简化日语句子。
  • original_en:原始英语句子。
  • proper_noun:(仅在SNOW T23中包含)工作人员提取的专有名词。作者指示工作人员不要重写专有名词,将确定专有名词的工作交给工作人员。

数据拆分

数据未进行拆分。

数据集创建

配置理由

这是关于自动转换成简化日语(日语简化)的研究的数据集。

来源数据

初始数据收集和规范化
  • SNOW T15:原始文本来自“small_parallel_enja:50k En/Ja用于测试SMT方法的并行语料库”,这是一个用于机器翻译的双语语料库。

  • SNOW T23:原始文本来自“田中语料库”( http://www.edrdg.org/wiki/index.php/Tanaka_Corpus )。

谁是源语言制片人?

[N/A]

注释

注释过程
  • SNOW T15:实验室的五名学生手工将原始日语句子改写为简化日语。核心词汇仅限于2,000个词,选取时考虑了诸多因素,如意义保持、变化、简单性和UniDic词段划分标准。

  • SNOW T23:通过众包聚集的七人手动重新编写所有句子。每个工作者重新编写了5,000个句子,其中100个句子被重新编写为工作者之间的共同句子。为了使句子的平均长度尽可能接近,不同工作者间的工作量保持不变。

谁是注释者?

SNOW T15有五名学生,SNOW T23有七名众包工作者。

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集维护者

该数据集是由日本长岡技术大学自然语言处理实验室创建的SNOW日语语言资源/工具的一部分。

许可信息

CC BY 4.0

引用信息

@inproceedings{maruyama-yamamoto-2018-simplified,
    title = "Simplified Corpus with Core Vocabulary",
    author = "Maruyama, Takumi  and
      Yamamoto, Kazuhide",
    booktitle = "Proceedings of the Eleventh International Conference on Language Resources and Evaluation ({LREC} 2018)",
    month = may,
    year = "2018",
    address = "Miyazaki, Japan",
    publisher = "European Language Resources Association (ELRA)",
    url = "https://www.aclweb.org/anthology/L18-1185",
}

@inproceedings{yamamoto-2017-simplified-japanese,
    title = "やさしい⽇本語対訳コーパスの構築",
    author = "⼭本 和英  and
      丸⼭ 拓海  and
      ⾓張 ⻯晴  and
      稲岡 夢⼈  and
      ⼩川 耀⼀朗  and
      勝⽥ 哲弘  and
      髙橋 寛治",
    booktitle = "言語処理学会第23回年次大会",
    month = 3月,
    year = "2017",
    address = "茨城, 日本",
    publisher = "言語処理学会",
    url = "https://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/B5-1.pdf",
}

@inproceedings{katsuta-yamamoto-2018-crowdsourced,
    title = "Crowdsourced Corpus of Sentence Simplification with Core Vocabulary",
    author = "Katsuta, Akihiro  and
      Yamamoto, Kazuhide",
    booktitle = "Proceedings of the Eleventh International Conference on Language Resources and Evaluation ({LREC} 2018)",
    month = may,
    year = "2018",
    address = "Miyazaki, Japan",
    publisher = "European Language Resources Association (ELRA)",
    url = "https://www.aclweb.org/anthology/L18-1072",
}

贡献者

感谢 @forest1988 @lhoestq 添加了此数据集。