数据集:

ted_hrlr

任务:

翻译

语言:

计算机处理:

translation

大小:

1M<n<10M

语言创建人:

expert-generated

批注创建人:

crowdsourced

源数据集:

extended|ted_talks_iwslt

许可:

cc-by-nc-nd-4.0

数据集介绍文件清单

英文

数据集卡片："ted_hrlr"

数据集摘要

从TED演讲文本衍生的数据集，用于比较其中一个是高资源语言对，另一个是低资源语言对的相似语言对。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

az_to_en

下载的数据集文件大小：131.01 MB
生成的数据集大小：1.53 MB
总计使用的磁盘空间：132.54 MB

'train'的一个示例如下所示。

{
    "translation": {
        "az": "zəhmət olmasa , sizə xitab edən sözlər eşidəndə əlinizi qaldırın .",
        "en": "please raise your hand if something applies to you ."
    }
}

aztr_to_en

下载的数据集文件大小：131.01 MB
生成的数据集大小：40.14 MB
总计使用的磁盘空间：171.15 MB

'train'的一个示例如下所示。

{
    "translation": {
        "az_tr": "zəhmət olmasa , sizə xitab edən sözlər eşidəndə əlinizi qaldırın .",
        "en": "please raise your hand if something applies to you ."
    }
}

be_to_en

下载的数据集文件大小：131.01 MB
生成的数据集大小：1.43 MB
总计使用的磁盘空间：132.42 MB

'train'的一个示例如下所示。

{
    "translation": {
        "be": "zəhmət olmasa , sizə xitab edən sözlər eşidəndə əlinizi qaldırın .",
        "en": "please raise your hand if something applies to you ."
    }
}

beru_to_en

下载的数据集文件大小：131.01 MB
生成的数据集大小：60.20 MB
总计使用的磁盘空间：191.21 MB

'validation'的一个示例如下所示。

This example was too long and was cropped:

{
    "translation": "{\"be_ru\": \"11 yaşımdaydım . səhərin birində , evimizdəki sevinc səslərinə oyandığım indiki kimi yadımdadır .\", \"en\": \"when i was..."
}

es_to_pt

下载的数据集文件大小：131.01 MB
生成的数据集大小：9.13 MB
总计使用的磁盘空间：140.14 MB

'validation'的一个示例如下所示。

This example was too long and was cropped:

{
    "translation": "{\"es\": \"11 yaşımdaydım . səhərin birində , evimizdəki sevinc səslərinə oyandığım indiki kimi yadımdadır .\", \"pt\": \"when i was 11..."
}

数据字段

所有拆分的数据字段相同。

az_to_en

translation: 一个多语言字符串变量，可能的语言包括az，en。

aztr_to_en

translation: 一个多语言字符串变量，可能的语言包括az_tr，en。

be_to_en

translation: 一个多语言字符串变量，可能的语言包括be，en。

beru_to_en

translation: 一个多语言字符串变量，可能的语言包括be_ru，en。

es_to_pt

translation: 一个多语言字符串变量，可能的语言包括es，pt。

数据拆分

name	train	validation	test
az_to_en	5947	672	904
aztr_to_en	188397	672	904
be_to_en	4510	249	665
beru_to_en	212615	249	665
es_to_pt	44939	1017	1764

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

源语言制作者是谁？

More Information Needed

注释

注释过程

More Information Needed

注释者是谁？

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

其他信息

数据集维护者

More Information Needed

许可信息

More Information Needed

引用信息

@inproceedings{qi-etal-2018-pre,
    title = "When and Why Are Pre-Trained Word Embeddings Useful for Neural Machine Translation?",
    author = "Qi, Ye  and
      Sachan, Devendra  and
      Felix, Matthieu  and
      Padmanabhan, Sarguna  and
      Neubig, Graham",
    booktitle = "Proceedings of the 2018 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers)",
    month = jun,
    year = "2018",
    address = "New Orleans, Louisiana",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N18-2084",
    doi = "10.18653/v1/N18-2084",
    pages = "529--535",
}

贡献者

感谢 @thomwolf ， @lewtun ， @patrickvonplaten 添加此数据集。

作者:

佚名

数据集大小:

41.47 KB

数据集卡片："ted_hrlr"

数据集摘要

支持的任务和排行榜

语言

数据集结构

数据实例

数据字段

数据拆分

数据集创建

策划理由

源数据

注释

个人和敏感信息

使用数据的注意事项

数据的社会影响

偏见讨论

其他已知限制

其他信息

数据集维护者

许可信息

引用信息

贡献者