数据集:

persiannlp/parsinlu_translation_fa_en

任务:

翻译

语言:

fa

计算机处理:

fa en

大小:

1K<n<10K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

extended

预印本库:

arxiv:2012.06154
英文

数据集卡片:PersiNLU(机器翻译)

数据集概述

一份波斯语翻译数据集(英语 -> 波斯语)。

支持的任务和排行榜

[需要更多信息]

语言

文本数据集包含波斯语(fa)和英语(en)。

数据集结构

数据实例

以下是数据集中的一个示例:

{
    "source": "چه زحمت‌ها که بکشد تا منابع مالی را تامین کند اصطلاحات را ترویج کند نهادهایی به راه اندازد.", 
    "targets": ["how toil to raise funds, propagate reforms, initiate institutions!"],  
    "category": "mizan_dev_en_fa"
}

数据字段

  • source: 输入的波斯语句子。
  • targets: 英语的目标翻译列表。
  • category: 示例来源。

数据拆分

训练集/开发集/测试集包含1,622,281个样本/2,138个样本/47,745个样本。

数据集创建

策划理由

详细信息请查看 the corresponding draft

源数据

初始数据收集和规范化

[需要更多信息]

来源语言制作者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

标注者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏差讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

CC BY-NC-SA 4.0许可

引用信息

@article{huggingface:dataset,
    title = {ParsiNLU: A Suite of Language Understanding Challenges for Persian},
    authors = {Khashabi, Daniel and Cohan, Arman and Shakeri, Siamak and Hosseini, Pedram and Pezeshkpour, Pouya and Alikhani, Malihe and Aminnaseri, Moin and Bitaab, Marzieh and Brahman, Faeze and Ghazarian, Sarik and others},
    year={2020}
    journal = {arXiv e-prints},
    eprint = {2012.06154},    
}

贡献

感谢 @danyaljj 添加了这个数据集。