数据集:

tushar117/xalign

英文

XAlign 数据集卡片

数据集摘要

这是一个大规模的高质量跨语言事实到文本数据集,其中事实是用英文表示,相应的句子是用本地语言表示的人物传记。训练和验证集是使用远程监督方法创建的,测试数据是通过人工注释生成的。

支持的任务和排行榜

  • '数据到文本生成':XAlign数据集可用于训练跨语言的数据到文本生成模型。可以通过对所有语言进行平均来计算模型性能,使用任何文本生成评估指标。在测试集上,报告的平均BLEU得分为29.27,平均METEOR得分为53.64。

  • '关系抽取':XAlign也可以用于从相关的本地语句中提取英语关系的跨语言关系抽取。

查看 Papers With Code Leaderboard 获取更多模型。

语言

阿萨姆语(as),孟加拉语(bn),古吉拉特语(gu),印地语(hi),卡纳达语(kn),马拉雅拉姆语(ml),马拉地语(mr),奥里亚语(or),旁遮普语(pa),泰米尔语(ta),泰卢固语(te)和英语(en)。

数据集结构

数据字段

每个记录包含以下条目:

  • 句子(string):本地语言维基百科句子。(删除了非本地语言的字符串)
  • 事实(List[Dict]):与句子关联的一组事实的列表,其中每个事实存储为字典。
  • 语言(string):语言标识符。

facts 键包含一组事实,其中每个事实都存储为字典。事实列表中的单个记录包含以下条目:

  • 主题(string):中心实体。
  • 客体(string):主题的实体或信息片段。
  • 谓词(string):连接主题和客体的关系。
  • 限定词(List[Dict]):它提供关于事实的附加信息,以列表的形式存储为限定符,其中每个记录都是一个字典。字典包含两个键:限定符谓词表示限定符的属性,限定符对象存储限定符的谓词的值。

数据实例

来自英语的示例

{
  "sentence": "Mark Paul Briers (born 21 April 1968) is a former English cricketer.",
  "facts": [
    {
      "subject": "Mark Briers",
      "predicate": "date of birth",
      "object": "21 April 1968",
      "qualifiers": []
    },
    {
      "subject": "Mark Briers",
      "predicate": "occupation",
      "object": "cricketer",
      "qualifiers": []
    },
    {
      "subject": "Mark Briers",
      "predicate": "country of citizenship",
      "object": "United Kingdom",
      "qualifiers": []
    }
  ],
  "language": "en"
}

来自其中一种低资源语言(即印地语)的示例

{
  "sentence": "बोरिस पास्तेरनाक १९५८ में साहित्य के क्षेत्र में नोबेल पुरस्कार विजेता रहे हैं।",
  "facts": [
    {
      "subject": "Boris Pasternak",
      "predicate": "nominated for",
      "object": "Nobel Prize in Literature",
      "qualifiers": [
        {
          "qualifier_predicate": "point in time",
          "qualifier_subject": "1958"
        }
      ]
    }
  ],
  "language": "hi"
}

数据拆分

XAlign 数据集有 3 个拆分:训练集、验证集和测试集。以下是数据集的统计信息。

Dataset splits Number of Instances in Split
Train 499155
Validation 55469
Test 7425

数据集创建

配置理由

大多数现有的数据到文本数据集只有英文版本。此外,在低资源语言中,人物实体的结构化维基数据条目数量与英文相比非常少。因此,低资源语言的单语数据到文本存在数据稀缺性的问题。XAlign 数据集有助于创建跨语言数据到文本生成系统,该系统接收一组英文事实作为输入,并生成以指定语言捕捉事实语义的句子。

源数据

初始数据收集和规范化

数据集创建过程从初始列表开始,该列表包含从维基数据中选择的约95K个人物实体,每个实体至少在 11 种低资源语言中的一个中具有指向相应维基百科页面的链接。这导致了一个数据集,其中每个实例都是一个元组,包含实体ID、英文维基数据事实、语言标识符和实体ID的维基百科URL。使用 WikiData 的 API,从每个实体的 20201221 WikiData 转储中提取事实(用英文表示)。从捕捉人物实体最有用的基础维基数据属性(或关系)类型中,提取这些事实仅适用于指定的维基数据属性:WikibaseItem、Time、Quantity 和 Monolingualtext。这导致跨所有 12 种语言的总共大约 0.55M 个数据实例。此外,对于每种语言,使用 here 中描述的预处理步骤,从 20210520 维基百科 XML 转储中提取句子(连同节信息)。

对于每个(实体、语言)对,预处理数据集包含一组英文维基数据事实和该语言中的一组维基百科句子。为了创建训练和验证数据集,将它们通过 abhishek et al. (2022) 中提出的两阶段自动对齐器,将句子与一部分事实相关联。

谁是源语言的生产者?

文本是从维基百科中提取的,事实是从维基数据中检索出来的。

注释

注释过程

测试数据集的手动注释分为两个阶段完成。对于这两个阶段,标注员被呈现(低资源语言句子,英文事实列表)。要求他们标记给定句子中存在的事实。还存在特定的准则,用于忽略多余的事实,处理缩写等。更详细的注释准则和道德声明见 here 。第一阶段,我们由一组 8 个专家标注员(熟悉任务的可靠研究生学生)为每种语言标记了 60 个实例。在第 2 阶段,我们从 National Register of Translators 中为每种语言选择了 8 个标注员。我们使用第 1 阶段的数据作为黄金控制集测试了这些标注员,并筛选出每种语言得分最高的 4 个标注员(通过与黄金标注的 Kappa 得分)。

标注者是谁?

National Translation Mission 中适当选择了人工标记者(经过筛选)用于测试集的创建。

个人和敏感信息

数据集在任何阶段都不涉及收集或存储任何个人身份信息或冒犯性信息。

使用数据的注意事项

数据的社会影响

该数据集的目的是帮助开发跨语言的数据到文本生成系统,这在许多下游的自然语言处理(NLP)应用中至关重要,如自动对话系统、领域特定的聊天机器人、开放领域问答、撰写体育报道等。这些系统对于推动商业应用非常有用,如给定英文信息箱生成维基百科文本、使用英文产品属性自动生成非英文产品描述等。

已知限制

XAlign 数据集仅关注人物传记,系统在该数据集上开发的结果可能不能推广到其他领域。

其他信息

数据集策划者

这个数据集由印度海得拉巴的信息检索与提取实验室(IREL)的Tushar Abhishek、Shivprasad Sagare、Bhavyajeet Singh、Anubhav Sharma、Manish Gupta和Vasudeva Varma收集。他们发布了 scripts 以收集和处理数据成为数据到文本格式。

许可信息

XAlign 数据集在 MIT License 下发布。

引用信息

@article{abhishek2022xalign,
  title={XAlign: Cross-lingual Fact-to-Text Alignment and Generation for Low-Resource Languages},
  author={Abhishek, Tushar and Sagare, Shivprasad and Singh, Bhavyajeet and Sharma, Anubhav and Gupta, Manish and Varma, Vasudeva},
  journal={arXiv preprint arXiv:2202.00291},
  year={2022}
}

贡献

感谢 Tushar Abhishek Shivprasad Sagare Bhavyajeet Singh Anubhav Sharma Manish Gupta 和 Vasudeva Varma 增加了这个数据集。

额外感谢国家翻译任务的注释员对测试数据集的创建作出的关键贡献:Bhaswati Bhattacharya,Aditi Sarkar,Raghunandan B. S.,Satish M.,Rashmi G.Rao,Vidyarashmi PN,Neelima Bhide,Anand Bapat,Krishna Rao N V,Nagalakshmi DV,Aditya Bhardwaj-Vuppula,Nirupama Patel,Asir. T,Sneha Gupta,Dinesh Kumar,Jasmin Gilani,Vivek R.,Sivaprasad S.,Pranoy J.,Ashutosh Bharadwaj,Balaji Venkateshwar,Vinkesh Bansal,Vaishnavi Udyavara,Ramandeep Singh,Khushi Goyal,Yashasvi LN Pasumarthy 和 Naren Akash。