数据集:

opus_wikipedia

任务:

翻译

计算机处理:

multilingual

语言创建人:

found

批注创建人:

found

源数据集:

original
英文

OpusWikipedia 数据集卡片

数据集概要

这是由Krzysztof Wołk和Krzysztof Marasek从维基百科中提取的平行句子语料库。

该数据集包含20种语言和36个双语数据集。

要加载不在配置中的语言对,您只需指定语言代码作为pairs,例如

dataset = load_dataset("opus_wikipedia", lang1="it", lang2="pl")

您可以在数据集描述的首页部分找到有效的语言对: http://opus.nlpl.eu/Wikipedia.php

支持的任务和排行榜

[需要更多信息]

语言

该数据集中的语言有:

  • ar
  • bg
  • cs
  • de
  • el
  • en
  • es
  • fa
  • fr
  • he
  • hu
  • it
  • nl
  • pl
  • pt
  • ro
  • ru
  • sl
  • tr
  • vi

数据集结构

数据实例

{
  'id': '0', 
  'translation': {
    "ar": "* Encyclopaedia of Mathematics online encyclopaedia from Springer, Graduate-level reference work with over 8,000 entries, illuminating nearly 50,000 notions in mathematics.",
    "en": "*Encyclopaedia of Mathematics online encyclopaedia from Springer, Graduate-level reference work with over 8,000 entries, illuminating nearly 50,000 notions in mathematics."
  } 
}

数据字段

  • id(str):该语言对平行句子的唯一标识符。
  • translation(dict):该语言对的平行句子。

数据划分

该数据集包含一个train集。

数据集创建

策划理由

[需要更多信息]

源数据

[需要更多信息]

初始数据收集和规范化

[需要更多信息]

源语言制作者是谁?

[需要更多信息]

注释

[需要更多信息]

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@article{WOLK2014126,
title = {Building Subject-aligned Comparable Corpora and Mining it for Truly Parallel Sentence Pairs},
journal = {Procedia Technology},
volume = {18},
pages = {126-132},
year = {2014},
note = {International workshop on Innovations in Information and Communication Science and Technology, IICST 2014, 3-5 September 2014, Warsaw, Poland},
issn = {2212-0173},
doi = {https://doi.org/10.1016/j.protcy.2014.11.024},
url = {https://www.sciencedirect.com/science/article/pii/S2212017314005453},
author = {Krzysztof Wołk and Krzysztof Marasek},
keywords = {Comparable corpora, machine translation, NLP},
}
@InProceedings{TIEDEMANN12.463,
  author = {J{\"o}rg Tiedemann},
  title = {Parallel Data, Tools and Interfaces in OPUS},
  booktitle = {Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)},
  year = {2012},
  month = {may},
  date = {23-25},
  address = {Istanbul, Turkey},
  editor = {Nicoletta Calzolari (Conference Chair) and Khalid Choukri and Thierry Declerck and Mehmet Ugur Dogan and Bente Maegaard and Joseph Mariani and Jan Odijk and Stelios Piperidis},
  publisher = {European Language Resources Association (ELRA)},
  isbn = {978-2-9517408-7-7},
  language = {english}
}

贡献者

感谢 @rkc007 添加了这个数据集。