数据集:

poleval2019_mt

任务:

翻译

计算机处理:

translation

大小:

10K<n<100K

批注创建人:

no-annotation

源数据集:

original
英文

poleval2019_mt数据集的数据卡片

数据集摘要

PolEval是一个为波兰自然语言处理工具进行评估的类似于SemEval的评估活动。参赛解决方案根据组织者选择的特定任务使用可用数据进行比赛,并按照预先设定的程序进行评估。PolEval-2019的任务之一是机器翻译(任务4)。

任务是使用任何技术和有限的文本资源训练尽可能好的机器翻译系统。比赛将针对两种语言对进行,一个是更常见的英语-波兰语(转为波兰语方向),另一个可以称为低资源俄语-波兰语(双向均可)。

这里还提供了波兰语-英语以用于双向训练。然而,测试数据仅适用于英语-波兰语。

支持的任务和排行榜

支持俄语到波兰语和英语到波兰语(以及反之)的机器翻译。

语言

  • 波兰语(pl)
  • 俄语(ru)
  • 英语(en)

数据集结构

数据实例

作为训练数据集,已经准备了一组在句子级别上对齐的双语语料库。这些语料以UTF-8编码的纯文本保存,每个文件一种语言。

数据字段

翻译示例如下:

{
  'translation': {'ru': 'не содержала в себе моделей. Модели это сравнительно новое явление. ', 
                  'pl': 'nie miała w sobie modeli. Modele to względnie nowa dziedzina. Tak więc, jeśli '}
}

数据拆分

数据集分为两个部分。所有标题都是从互联网新闻网站上爬取的。

train validation test
ru-pl 20001 3001 2969
pl-ru 20001 3001 2969
en-pl 129255 1000 9845

数据集创建

策划理由

这些数据是作为PolEval-2019的任务而策划的。任务是使用任何技术和有限的文本资源训练尽可能好的机器翻译系统。比赛将针对两种语言对进行,一个是更常见的英语-波兰语(转为波兰语方向),另一个可以称为低资源俄语-波兰语(双向均可)。

PolEval是一个为波兰自然语言处理工具进行评估的类似于SemEval的评估活动。提交的工具根据组织者选择的特定任务使用可用数据进行比赛,并根据预先设定的程序进行评估。

与PolEval 2019相关的论文是在2019年AI & NLP Workshop Day(华沙,2019年5月31日)上展示的。各种任务(包括任务4:机器翻译)表现最好的模型的链接在此 this 网址上。

源数据

初始数据收集和标准化

[需要更多信息]

源语言生产者是谁?

PolEval的组织细节在这个 link 链接中给出。

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见的讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@proceedings{ogr:kob:19:poleval,
  editor    = {Maciej Ogrodniczuk and Łukasz Kobyliński},
  title     = {{Proceedings of the PolEval 2019 Workshop}},
  year      = {2019},
  address   = {Warsaw, Poland},
  publisher = {Institute of Computer Science, Polish Academy of Sciences},
  url       = {http://2019.poleval.pl/files/poleval2019.pdf},
  isbn      = "978-83-63159-28-3"}
}

贡献者

感谢 @vrindaprabhu 添加了这个数据集。