数据集:

opus_ubuntu

英文

Opus Ubuntu 数据集卡片

数据集简介

这些是由 Ubuntu 社区捐赠的 Ubuntu 软件包消息的翻译。

要加载不在配置中的语言对,您只需要将语言代码指定为 pairs.You 可以在数据集描述的主页部分找到有效的语言对: http://opus.nlpl.eu/Ubuntu.php 例如:

dataset = load_dataset("opus_ubuntu", lang1="it", lang2="pl")

支持的任务和排行榜

[需要更多信息]

语言

[需要更多信息]

数据集结构

数据实例

示例实例:

{
  'id': '0', 
  'translation': {
    'it': 'Comprende Gmail, Google Docs, Google+, YouTube e Picasa',
    'pl': 'Zawiera Gmail, Google Docs, Google+, YouTube oraz Picasa'
  }
}

数据字段

每个实例有两个字段:

  • id:示例的ID
  • translation:包含两种语言的翻译文本的字典。

数据拆分

每个子集只包含一个训练集。我们为某些语言对提供了示例数量:

train
as-bs 8583
az-cs 293
bg-de 184
br-es_PR 125
bn-ga 7324
br-hi 15551
br-la 527
bs-szl 646
br-uz 1416
br-yi 2799

数据集创建

策划理由

[需要更多信息]

来源数据

[需要更多信息]

初始数据收集和规范化

[需要更多信息]

源语言制作者是谁?

[需要更多信息]

注释

[需要更多信息]

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

BSD "修订版"许可证(请参阅( https://help.launchpad.net/Legal#Translations_copyright)[https://help.launchpad.net/Legal#Translations_copyright]

引用信息

@InProceedings{TIEDEMANN12.463,
  author = {J{\"o}rg Tiedemann},
  title = {Parallel Data, Tools and Interfaces in OPUS},
  booktitle = {Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)},
  year = {2012},
  month = {may},
  date = {23-25},
  address = {Istanbul, Turkey},
  editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Mehmet Ugur Dogan and Bente Maegaard and Joseph Mariani and Jan Odijk and Stelios Piperidis},
  publisher = {European Language Resources Association (ELRA)},
  isbn = {978-2-9517408-7-7},
  language = {english}
 }

贡献

感谢 @rkc007 添加了这个数据集。