数据集:

mt_eng_vietnamese

任务:

翻译

语言:

en vi

计算机处理:

multilingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

found

源数据集:

original
英文

mt_eng_vietnamese 数据集卡片

数据集概要

IWSLT'15 英语-越南语机器翻译的预处理数据集:英语-越南语。

支持的任务和排行榜

机器翻译

语言

英语,越南语

数据集结构

数据实例

数据集中的一个例子:

{
  'translation': {
    'en': 'In 4 minutes , atmospheric chemist Rachel Pike provides a glimpse of the massive scientific effort behind the bold headlines on climate change , with her team -- one of thousands who contributed -- taking a risky flight over the rainforest in pursuit of data on a key molecule .', 
    'vi': 'Trong 4 phút , chuyên gia hoá học khí quyển Rachel Pike giới thiệu sơ lược về những nỗ lực khoa học miệt mài đằng sau những tiêu đề táo bạo về biến đổi khí hậu , cùng với đoàn nghiên cứu của mình -- hàng ngàn người đã cống hiến cho dự án này -- một chuyến bay mạo hiểm qua rừng già để tìm kiếm thông tin về một phân tử then chốt .'
    }
}

数据字段

  • 翻译:
    • en:英语文本
    • vi:越南语文本

数据分割

训练集:133318,验证集:1269,测试集:1269

数据集创建

策划原因

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

源语言制作者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@inproceedings{Luong-Manning:iwslt15,
        Address = {Da Nang, Vietnam}
        Author = {Luong, Minh-Thang  and Manning, Christopher D.},
        Booktitle = {International Workshop on Spoken Language Translation},
        Title = {Stanford Neural Machine Translation Systems for Spoken Language Domain},
        Year = {2015}}

贡献者

感谢 @Nilanshrajput 添加此数据集。