数据集:

flores

英文

"flores" 数据集卡片

数据集摘要

低资源机器翻译的评估数据集:尼泊尔语-英语和僧伽罗语-英语。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

neen
  • 下载的数据集文件大小:1.54 MB
  • 生成的数据集大小:1.86 MB
  • 使用的总磁盘空间:3.40 MB

"验证集"的示例如下所示。

This example was too long and was cropped:

{
    "translation": "{\"en\": \"This is the wrong translation!\", \"ne\": \"यस वाहेक आगम पूजा, तारा पूजा, व्रत आदि पनि घरभित्र र वाहिर दुवै स्थानमा गरेको पा..."
}
sien
  • 下载的数据集文件大小:1.54 MB
  • 生成的数据集大小:2.01 MB
  • 使用的总磁盘空间:3.57 MB

"验证集"的示例如下所示。

This example was too long and was cropped:

{
    "translation": "{\"en\": \"This is the wrong translation!\", \"si\": \"එවැනි ආවරණයක් ලබාදීමට රක්ෂණ සපයන්නෙකු කැමති වුවත් ඒ සාමාන් යයෙන් බොහෝ රටවල පොදු ..."
}

数据字段

数据字段在所有拆分中都相同。

neen
  • 翻译:一个多语言字符串变量,可能的语言包括ne、en。
sien
  • 翻译:一个多语言字符串变量,可能的语言包括si、en。

数据拆分

name validation test
neen 2560 2836
sien 2899 2767

数据集创建

策划原因

More Information Needed

来源数据

初始数据收集和规范化

More Information Needed

谁是源语言生成者?

More Information Needed

注释

注释过程

More Information Needed

谁是标注者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据集的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@misc{guzmn2019new,
    title={Two New Evaluation Datasets for Low-Resource Machine Translation: Nepali-English and Sinhala-English},
    author={Francisco Guzman and Peng-Jen Chen and Myle Ott and Juan Pino and Guillaume Lample and Philipp Koehn and Vishrav Chaudhary and Marc'Aurelio Ranzato},
    year={2019},
    eprint={1902.01382},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

贡献

感谢 @thomwolf @patrickvonplaten @lewtun 添加了此数据集。