数据集:

opus_gnome

任务:

翻译

计算机处理:

multilingual

语言创建人:

found

批注创建人:

found

源数据集:

original
英文

Opus Gnome 数据集卡片

数据集摘要

要加载一个不在配置中的语言对,你只需要指定语言代码作为pairs。您可以在数据库描述的首页部分找到有效的语言对:

dataset = load_dataset("opus_gnome", lang1="it", lang2="pl")

支持的任务和排行榜

[需要更多信息]

语言

[需要更多信息]

数据集结构

数据实例

{
  'id': '0', 
  'translation': {
    'ar': 'إعداد سياسة القفل',
    'bal': 'تنظیم کتن سیاست کبل'
  }
}

数据字段

每个实例有两个字段:

  • id : 示例的id
  • translation : 包含两种语言翻译文本的字典

数据划分

每个子集只包含一个训练集。我们提供某些语言对的示例数量:

train
ar-bal 60
bg-csb 10
ca-en_GB 7982
cs-eo 73
de-ha 216
cs-tk 18686
da-vi 149
en_GB-my 28232
el-sk 150
de-tt 2169

数据集创建

策划理由

[需要更多信息]

源数据

[需要更多信息]

初始数据收集和标准化

[需要更多信息]

源语言制作者是谁?

[需要更多信息]

注释

[需要更多信息]

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

数据使用的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@InProceedings{TIEDEMANN12.463, author = {J{"o}rg Tiedemann}, title = {Parallel Data, Tools and Interfaces in OPUS}, booktitle = {Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)}, year = {2012}, month = {may}, date = {23-25}, address = {Istanbul, Turkey}, editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Mehmet Ugur Dogan and Bente Maegaard and Joseph Mariani and Jan Odijk and Stelios Piperidis}, publisher = {European Language Resources Association (ELRA)}, isbn = {978-2-9517408-7-7}, language = {english} }

贡献

感谢 @rkc007 添加此数据集。