数据集:

europarl_bilingual

任务:

翻译

计算机处理:

translation

大小:

100K<n<1M

语言创建人:

found

批注创建人:

found

源数据集:

original
英文

europarl-bilingual 的数据集卡片

数据集概要

这是由爱丁堡大学的 Philipp Koehn 从欧洲议会网站上提取的平行语料库。主要用途是辅助统计机器翻译研究。

要加载不在配置中的语言对,你只需要指定语言代码作为 pairs。你可以在数据集描述的首页部分找到有效的语言对: https://opus.nlpl.eu/Europarl.php 例如

dataset = load_dataset("europarl_bilingual", lang1="fi", lang2="fr")

支持的任务和排行榜

任务:机器翻译,跨语言词嵌入(CWLE)对齐

语言

  • 21种语言,211对双语文本
  • 总文件数:207,775
  • 总标记数:759.05M
  • 总句子片段数:30.32M

每对以下语言都可用:

  • bg
  • cs
  • da
  • de
  • el
  • en
  • es
  • et
  • fi
  • fr
  • hu
  • it
  • lt
  • lv
  • nl
  • pl
  • pt
  • ro
  • sk
  • sl
  • sv

数据集结构

数据实例

这是 en-fr 对的一个示例:

{
  'translation': {
    'en': 'Resumption of the session',
    'fr': 'Reprise de la session'
  }
}

数据字段

  • translation:一个包含两个字符串的字典,键表示对应的语言。

数据划分

  • 训练集:仅提供训练集。作者没有提供在训练集、开发集和测试集中分隔示例的信息。

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言制造者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

该数据集与原始来源具有相同的许可证。请查看有关来源的信息,该信息可以在 http://opus.nlpl.eu/Europarl-v8.php 中找到。

引用信息

@InProceedings{TIEDEMANN12.463,
  author = {J�rg Tiedemann},
  title = {Parallel Data, Tools and Interfaces in OPUS},
  booktitle = {Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)},
  year = {2012},
  month = {may},
  date = {23-25},
  address = {Istanbul, Turkey},
  editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Mehmet Ugur Dogan and Bente Maegaard and Joseph Mariani and Jan Odijk and Stelios Piperidis},
  publisher = {European Language Resources Association (ELRA)},
  isbn = {978-2-9517408-7-7},
  language = {english}
 }

贡献者

感谢 @lucadiliello 添加了该数据集。