数据集:
poleval2019_mt
PolEval是一个为波兰自然语言处理工具进行评估的类似于SemEval的评估活动。参赛解决方案根据组织者选择的特定任务使用可用数据进行比赛,并按照预先设定的程序进行评估。PolEval-2019的任务之一是机器翻译(任务4)。
任务是使用任何技术和有限的文本资源训练尽可能好的机器翻译系统。比赛将针对两种语言对进行,一个是更常见的英语-波兰语(转为波兰语方向),另一个可以称为低资源俄语-波兰语(双向均可)。
这里还提供了波兰语-英语以用于双向训练。然而,测试数据仅适用于英语-波兰语。
支持俄语到波兰语和英语到波兰语(以及反之)的机器翻译。
作为训练数据集,已经准备了一组在句子级别上对齐的双语语料库。这些语料以UTF-8编码的纯文本保存,每个文件一种语言。
翻译示例如下:
{ 'translation': {'ru': 'не содержала в себе моделей. Модели это сравнительно новое явление. ', 'pl': 'nie miała w sobie modeli. Modele to względnie nowa dziedzina. Tak więc, jeśli '} }
数据集分为两个部分。所有标题都是从互联网新闻网站上爬取的。
train | validation | test | |
---|---|---|---|
ru-pl | 20001 | 3001 | 2969 |
pl-ru | 20001 | 3001 | 2969 |
en-pl | 129255 | 1000 | 9845 |
这些数据是作为PolEval-2019的任务而策划的。任务是使用任何技术和有限的文本资源训练尽可能好的机器翻译系统。比赛将针对两种语言对进行,一个是更常见的英语-波兰语(转为波兰语方向),另一个可以称为低资源俄语-波兰语(双向均可)。
PolEval是一个为波兰自然语言处理工具进行评估的类似于SemEval的评估活动。提交的工具根据组织者选择的特定任务使用可用数据进行比赛,并根据预先设定的程序进行评估。
与PolEval 2019相关的论文是在2019年AI & NLP Workshop Day(华沙,2019年5月31日)上展示的。各种任务(包括任务4:机器翻译)表现最好的模型的链接在此 this 网址上。
[需要更多信息]
源语言生产者是谁?PolEval的组织细节在这个 link 链接中给出。
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@proceedings{ogr:kob:19:poleval, editor = {Maciej Ogrodniczuk and Łukasz Kobyliński}, title = {{Proceedings of the PolEval 2019 Workshop}}, year = {2019}, address = {Warsaw, Poland}, publisher = {Institute of Computer Science, Polish Academy of Sciences}, url = {http://2019.poleval.pl/files/poleval2019.pdf}, isbn = "978-83-63159-28-3"} }
感谢 @vrindaprabhu 添加了这个数据集。