数据集:

id_panl_bppt

任务:

翻译

语言:

en id

计算机处理:

translation

大小:

10K<n<100K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original
英文

数据集 [数据集名称] 的数据卡

数据集摘要

这是由BPPT(印尼技术评估与应用机构)为PAN本地化项目(亚洲地区发展本地语言计算能力的区域性倡议)创建的用于多领域翻译系统的平行文本语料库。该数据集包含约24K个句子,分为4个不同主题(经济、国际、科学技术和体育)。

支持的任务和排行榜

[需要更多信息]

语言

印度尼西亚语

数据集结构

[需要更多信息]

数据实例

数据集的一个示例:

{ 
  'id': '0',
  'topic': 0,
  'translation':
    { 
      'en': 'Minister of Finance Sri Mulyani Indrawati said that a sharp correction of the composite
inde x by up to 4 pct in Wedenesday?s trading was a mere temporary effect of regional factors like
decline in plantation commodity prices and the financial crisis in Thailand.',
      'id': 'Menteri Keuangan Sri Mulyani mengatakan koreksi tajam pada Indeks Harga Saham Gabungan
IHSG hingga sekitar 4 persen dalam perdagangan Rabu 10/1 hanya efek sesaat dari faktor-faktor regional
seperti penurunan harga komoditi perkebunan dan krisis finansial di Thailand.'
    }
}

数据字段

  • id:样本ID
  • translation:英印尼平行句子
  • topic:句子的主题。可以是以下之一:
    • 经济
    • 国际
    • 科学技术
    • 体育

数据拆分

该数据集被分为训练集、验证集和测试集。

数据集创建

策展理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

语言源头制作人是谁?

[需要更多信息]

注解

注解过程

[需要更多信息]

注解者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策展人

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@inproceedings{id_panl_bppt,
  author    = {PAN Localization - BPPT},
  title     = {Parallel Text Corpora, English Indonesian},
  year      = {2009},
  url       = {http://digilib.bppt.go.id/sampul/p92-budiono.pdf},
}

贡献

感谢 @cahya-wirawan 添加了这个数据集。