数据集:

udhr

任务:

翻译

计算机处理:

multilingual

大小:

n<1K

语言创建人:

found

批注创建人:

no-annotation

源数据集:

original
英文

《世界人权宣言》(UDHR)数据集卡片

数据集概述

《世界人权宣言》(Universal Declaration of Human Rights,UDHR)是人权历史上的里程碑性文件。这份文件由来自世界各地不同法律和文化背景的代表起草,首次确立了应普遍保护的基本人权。该宣言于1948年12月10日在巴黎的联合国大会第183次全会上通过。

© 1996 – 2009 联合国人权事务高级专员办事处

此纯文本版本由“UDHR in Unicode”项目准备, https://www.unicode.org/udhr

支持的任务和排行榜

[需要更多信息]

语言

数据集包括400多种语言和方言的文件翻译。语言列表可以在 here 中找到。

数据集结构

数据实例

每个实例对应于不同的语言,包括有关语言和完整文档文本的信息。

数据字段

  • text:完整的文档文本,每行文本用换行符(\n)分隔。
  • lang_key:给定翻译的唯一标识符。
  • lang_name:语言/方言的文字描述。
  • iso639-3: iso639-3 语言标识符。
  • iso15924: iso15924 语言标识符。
  • bcp47: BCP 47 语言标识符。

数据拆分

只包括一个“train”拆分,其中包含所有语言的完整文档。

train
Number of examples 488

数据集创建

策划理由

除了社会意义外,该文件在1999年创下了世界上翻译最多的文件记录,因此对于需要许多语言之间的配对文本的环境非常有用。

来源数据

初始数据收集和标准化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

注释流程

[需要更多信息]

谁是标注者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

除了联合国《世界人权宣言》的社会和政治重要性外,该文件在1999年创造了翻译最多的文件世界纪录,因此对于需要许多语言之间的配对文本,包括低资源和在自然语言处理研究中明显代表性不足的语言,非常有用。

偏见讨论

[需要更多信息]

其他已知限制

虽然该文件被翻译成了非常多的语言,但文本非常简短,因此在大多数类型的建模和评估中可能有限的用途。

其他信息

数据集策划者

在这里使用的txt/xml数据文件由Unicode联盟编制,可以在 here 中找到。原始文本可在 United Nations website 上找到。

许可信息

源文本© 1996 – 2022 联合国人权事务高级专员办事处

Unicode license 适用于这些翻译。

引用信息

United Nations. (1998). The Universal Declaration of Human Rights, 1948-1998. New York: United Nations Dept. of Public Information.

贡献

感谢 @joeddav 添加了这个数据集。更新于2022年5月 @leondz