数据集:

persiannlp/parsinlu_translation_en_fa

任务:

翻译

语言:

fa

计算机处理:

fa en

大小:

1K<n<10K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

extended

预印本库:

arxiv:2012.06154
英文

PersiNLU (机器翻译) 数据集信息卡

数据集概要

一个波斯语翻译数据集(英语 -> 波斯语)。

支持的任务和排行榜

[需要更多信息]

语言

文本数据集为波斯语(fa)和英语(en)。

数据集结构

数据实例

这是数据集中的一个示例:

{
    "source": "how toil to raise funds, propagate reforms, initiate institutions!", 
    "targets": ["چه زحمت‌ها که بکشد تا منابع مالی را تامین کند اصطلاحات را ترویج کند نهادهایی به راه اندازد."],  
    "category": "mizan_dev_en_fa"
}

数据字段

  • source: 输入句子,用英语表示。
  • targets: 波斯语的黄金目标翻译列表。
  • category: 数据集来源。

数据拆分

训练集/开发集/测试集包含1,621,666/2,138/48,360个样本。

数据集创建

策划理由

详细信息,请查看 the corresponding draft

数据源

初始数据收集和标准化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人隐私信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏差讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

CC BY-NC-SA 4.0许可证

引用信息

@article{huggingface:dataset,
    title = {ParsiNLU: A Suite of Language Understanding Challenges for Persian},
    authors = {Khashabi, Daniel and Cohan, Arman and Shakeri, Siamak and Hosseini, Pedram and Pezeshkpour, Pouya and Alikhani, Malihe and Aminnaseri, Moin and Bitaab, Marzieh and Brahman, Faeze and Ghazarian, Sarik and others},
    year={2020}
    journal = {arXiv e-prints},
    eprint = {2012.06154},    
}

贡献

感谢 @danyaljj 添加了这个数据集。