数据集:
opus_gnome
要加载一个不在配置中的语言对,你只需要指定语言代码作为pairs。您可以在数据库描述的首页部分找到有效的语言对:
dataset = load_dataset("opus_gnome", lang1="it", lang2="pl")
[需要更多信息]
[需要更多信息]
{ 'id': '0', 'translation': { 'ar': 'إعداد سياسة القفل', 'bal': 'تنظیم کتن سیاست کبل' } }
每个实例有两个字段:
每个子集只包含一个训练集。我们提供某些语言对的示例数量:
train | |
---|---|
ar-bal | 60 |
bg-csb | 10 |
ca-en_GB | 7982 |
cs-eo | 73 |
de-ha | 216 |
cs-tk | 18686 |
da-vi | 149 |
en_GB-my | 28232 |
el-sk | 150 |
de-tt | 2169 |
[需要更多信息]
[需要更多信息]
初始数据收集和标准化[需要更多信息]
源语言制作者是谁?[需要更多信息]
[需要更多信息]
注释过程[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@InProceedings{TIEDEMANN12.463, author = {J{"o}rg Tiedemann}, title = {Parallel Data, Tools and Interfaces in OPUS}, booktitle = {Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)}, year = {2012}, month = {may}, date = {23-25}, address = {Istanbul, Turkey}, editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Mehmet Ugur Dogan and Bente Maegaard and Joseph Mariani and Jan Odijk and Stelios Piperidis}, publisher = {European Language Resources Association (ELRA)}, isbn = {978-2-9517408-7-7}, language = {english} }
感谢 @rkc007 添加此数据集。