数据集:
tatoeba
Tatoeba是一个包含句子和翻译的集合。
要加载一个不在配置中的语言对,你只需要指定语言代码作为pair。可以在数据集描述的主页部分找到有效的语言对: http://opus.nlpl.eu/Tatoeba.php E.g.
dataset = load_dataset("tatoeba", lang1="en", lang2="he")
默认日期为v2021-07-22,但你也可以使用以下命令更改日期
dataset = load_dataset("tatoeba", lang1="en", lang2="he", date="v2020-11-09")
[需要更多信息]
数据集中的语言有:
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
初始数据收集和规范化[需要更多信息]
谁是源语言的生成者?[需要更多信息]
[需要更多信息]
注释过程[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
感谢 @abhishekkrthakur 添加了该数据集。