数据集:
gsarti/flores_101
FLORES是一个用于英语和低资源语言之间的机器翻译的基准数据集。
摘要来自原始论文:
低资源和多语种机器翻译中阻碍进展的最大挑战之一是缺乏良好的评估基准。当前的评估基准要么缺乏对低资源语言的广泛覆盖,要么只考虑特定领域,或者因使用半自动程序构建而质量低下。在这项工作中,我们介绍了FLORES评估基准,该基准由从英语维基百科中提取的3001个句子组成,涵盖了各种不同的主题和领域。这些句子经过专业翻译人员通过一个精心控制的过程翻译成101种语言。由此产生的数据集可以更好地评估低资源语言中模型的质量,包括评估多对多多语种翻译系统,因为所有翻译都是多语言对齐的。通过公开发布这样高质量和广覆盖的数据集,我们希望促进机器翻译社区及其他领域的进展。
免责声明:*Flores-101数据集由Facebook托管,并根据 Creative Commons Attribution-ShareAlike 4.0 International License 许可。
有关在WMT2021共享任务的上下文中对FLORES-101进行模型评估的详细信息,请参阅 Dynabench leaderboard 。
该数据集包含101种语言的平行句子,如原始项目页面中所述。语言使用ISO 639-3代码进行标识(例如eng,fra,rus),与原始数据集中的标识方式相同。
新增:使用配置all可以一次性访问所有可用语言的全部平行句子。
下面提供了俄语(rus配置)dev拆分的示例。所有配置具有相同的结构,并且所有句子在配置和拆分之间都是对齐的。
{ 'id': 1, 'sentence': 'В понедельник ученые из Медицинской школы Стэнфордского университета объявили об изобретении нового диагностического инструмента, который может сортировать клетки по их типу; это маленький чип, который можно напечатать, используя стандартный струйный принтер примерно за 1 цент США.', 'URL': 'https://en.wikinews.org/wiki/Scientists_say_new_medical_diagnostic_chip_can_sort_cells_anywhere_with_an_inkjet', 'domain': 'wikinews', 'topic': 'health', 'has_image': 0, 'has_hyperlink': 0 }
文本是原始数据集中提供的,没有经过进一步的预处理或标记化。
config | dev | devtest |
---|---|---|
all configurations | 997 | 1012: |
有关数据集创建的其他信息,请参见原始文章 The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation 。
FLORES-101的原始作者是该数据集的策展人。如需有关此?数据集版本的问题或更新,请联系gabriele.sarti996@gmail.com。
根据Creative Commons Attribution Share Alike 4.0许可。许可证可在 here 找到。
如果您在您的工作中使用这些语料库,请引用作者:
@inproceedings{flores101, title={The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation}, author={Goyal, Naman and Gao, Cynthia and Chaudhary, Vishrav and Chen, Peng-Jen and Wenzek, Guillaume and Ju, Da and Krishnan, Sanjana and Ranzato, Marc'Aurelio and Guzm\'{a}n, Francisco and Fan, Angela}, journal={arXiv preprint arXiv:2106.03193}, year={2021} }