数据集:

europarl_bilingual

任务:

翻译

语言:

计算机处理:

translation

大小:

100K<n<1M

语言创建人:

found

批注创建人:

found

源数据集:

original

许可:

license:unknown

数据集介绍文件清单

英文

europarl-bilingual 的数据集卡片

数据集概要

这是由爱丁堡大学的 Philipp Koehn 从欧洲议会网站上提取的平行语料库。主要用途是辅助统计机器翻译研究。

要加载不在配置中的语言对，你只需要指定语言代码作为 pairs。你可以在数据集描述的首页部分找到有效的语言对： https://opus.nlpl.eu/Europarl.php 例如

dataset = load_dataset("europarl_bilingual", lang1="fi", lang2="fr")

支持的任务和排行榜

任务：机器翻译，跨语言词嵌入（CWLE）对齐

语言

21种语言，211对双语文本
总文件数：207,775
总标记数：759.05M
总句子片段数：30.32M

每对以下语言都可用：

数据集结构

数据实例

这是 en-fr 对的一个示例：

{
  'translation': {
    'en': 'Resumption of the session',
    'fr': 'Reprise de la session'
  }
}

数据字段

translation：一个包含两个字符串的字典，键表示对应的语言。

数据划分

训练集：仅提供训练集。作者没有提供在训练集、开发集和测试集中分隔示例的信息。

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言制造者？

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

该数据集与原始来源具有相同的许可证。请查看有关来源的信息，该信息可以在 http://opus.nlpl.eu/Europarl-v8.php 中找到。

引用信息

@InProceedings{TIEDEMANN12.463,
  author = {J�rg Tiedemann},
  title = {Parallel Data, Tools and Interfaces in OPUS},
  booktitle = {Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)},
  year = {2012},
  month = {may},
  date = {23-25},
  address = {Istanbul, Turkey},
  editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Mehmet Ugur Dogan and Bente Maegaard and Joseph Mariani and Jan Odijk and Stelios Piperidis},
  publisher = {European Language Resources Association (ELRA)},
  isbn = {978-2-9517408-7-7},
  language = {english}
 }

贡献者

感谢 @lucadiliello 添加了该数据集。

作者:

佚名

数据集大小:

512.45 KB