数据集:
snow_simplified_japanese_corpus
SNOW T15:日语语言的简化语料库。该语料库包含50,000个手动简化和对齐的句子。此语料库包含原始句子、简化句子和原始句子的英文翻译。它可用于自动文本简化以及将简单的日语翻译成英语和反之亦然。核心词汇仅限于2,000个词,选取时考虑了诸多因素,如意义保持、变化、简单性和UniDic词段划分标准。详情请参阅日语简化解释页面( http://www.jnlp.org/research/Japanese_simplification )。原始文本来自“small_parallel_enja:50k En/Ja用于测试SMT方法的并行语料库”,这是一个用于机器翻译的双语语料库。
SNOW T23:基于SNOW T15重新编写的35,000个易于日语(简单日语词汇)的扩展语料库。原始文本来自“田中语料库”( http://www.edrdg.org/wiki/index.php/Tanaka_Corpus )。
它可用于日语的自动文本简化,以及将简单的日语翻译成英语和反之亦然。
日语、简化日语和英语。
SNOW T15是xlsx文件,包含ID、“#日本語(原文)”(日语(原始))、“#やさしい日本語”(简化日语)、“#英語(原文)”(英语(原始))的字段。SNOW T23是xlsx文件,包含ID、“#日本語(原文)”(日语(原始))、“#やさしい日本語”(简化日语)、“#英語(原文)”(英语(原始))和“#固有名詞”(专有名词)的字段。
数据未进行拆分。
这是关于自动转换成简化日语(日语简化)的研究的数据集。
SNOW T15:原始文本来自“small_parallel_enja:50k En/Ja用于测试SMT方法的并行语料库”,这是一个用于机器翻译的双语语料库。
SNOW T23:原始文本来自“田中语料库”( http://www.edrdg.org/wiki/index.php/Tanaka_Corpus )。
[N/A]
SNOW T15:实验室的五名学生手工将原始日语句子改写为简化日语。核心词汇仅限于2,000个词,选取时考虑了诸多因素,如意义保持、变化、简单性和UniDic词段划分标准。
SNOW T23:通过众包聚集的七人手动重新编写所有句子。每个工作者重新编写了5,000个句子,其中100个句子被重新编写为工作者之间的共同句子。为了使句子的平均长度尽可能接近,不同工作者间的工作量保持不变。
SNOW T15有五名学生,SNOW T23有七名众包工作者。
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
该数据集是由日本长岡技术大学自然语言处理实验室创建的SNOW日语语言资源/工具的一部分。
CC BY 4.0
@inproceedings{maruyama-yamamoto-2018-simplified, title = "Simplified Corpus with Core Vocabulary", author = "Maruyama, Takumi and Yamamoto, Kazuhide", booktitle = "Proceedings of the Eleventh International Conference on Language Resources and Evaluation ({LREC} 2018)", month = may, year = "2018", address = "Miyazaki, Japan", publisher = "European Language Resources Association (ELRA)", url = "https://www.aclweb.org/anthology/L18-1185", } @inproceedings{yamamoto-2017-simplified-japanese, title = "やさしい⽇本語対訳コーパスの構築", author = "⼭本 和英 and 丸⼭ 拓海 and ⾓張 ⻯晴 and 稲岡 夢⼈ and ⼩川 耀⼀朗 and 勝⽥ 哲弘 and 髙橋 寛治", booktitle = "言語処理学会第23回年次大会", month = 3月, year = "2017", address = "茨城, 日本", publisher = "言語処理学会", url = "https://www.anlp.jp/proceedings/annual_meeting/2017/pdf_dir/B5-1.pdf", } @inproceedings{katsuta-yamamoto-2018-crowdsourced, title = "Crowdsourced Corpus of Sentence Simplification with Core Vocabulary", author = "Katsuta, Akihiro and Yamamoto, Kazuhide", booktitle = "Proceedings of the Eleventh International Conference on Language Resources and Evaluation ({LREC} 2018)", month = may, year = "2018", address = "Miyazaki, Japan", publisher = "European Language Resources Association (ELRA)", url = "https://www.aclweb.org/anthology/L18-1072", }
感谢 @forest1988 和 @lhoestq 添加了此数据集。