数据集:

hda_nli_hindi

语言:

hi

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

machine-generated

许可:

mit
英文

《印度散文分析数据集》数据卡片

数据集概述

  • 这是一个用于印地语自然语言推理的数据集。《印地语散文分析(HDA)数据集》由文本蕴涵对组成。
  • 数据集的每一行由4个列构成-前提、假设、标签和主题。
  • 前提和假设使用印地语书写,而蕴涵标签则使用英语。
  • 蕴涵标签有两种类型-蕴涵和非蕴涵。
  • 蕴涵表示从前提中可以推断出假设,非蕴涵表示反之。
  • 该数据集可用于训练印地语自然语言推理任务的模型。

支持的任务和排行榜

  • 印度文自然语言推理

语言

  • 数据集为印地语。

数据集结构

  • 数据采用TSV格式结构。
  • 训练、测试和验证文件分别存储在不同文件中。

数据实例

'train'的一个示例如下所示。

{'hypothesis': 'यह एक वर्णनात्मक कथन है।', 'label': 1, 'premise': 'जैसे उस का सारा चेहरा अपना हो और आँखें किसी दूसरे की जो चेहरे पर पपोटों के पीछे महसूर कर दी गईं।', 'topic': 1}

数据字段

每行包含4个列:

  • 前提:字符串
  • 假设:字符串
  • 标签:类别标签,取值为“不蕴涵”(0)或“蕴涵”(1)
  • 主题:类别标签,取值为“辩论”(0)、“描述性”(1)、“对话式”(2)、“信息性”(3)或“叙述性”(4)。

数据拆分

  • 训练集:31892条
  • 验证集:9460条
  • 测试集:9970条

数据集创建

  • 我们采用Poliak等人(2018a、b)的重新投射技术,将公开可获取的印度散文分析分类数据集转化为TE问题。
  • 在此重新投射过程中,我们为标签分类中的每个类构建模板假设。
  • 然后,我们将原始标注句子与每个模板假设配对,创建TE样本。
  • 有关重新投射过程的更多信息,请参阅论文 https://www.aclweb.org/anthology/2020.aacl-main.71

源数据

重新投射过程的源数据集为BBC印地语新闻标题数据集( https://github.com/NirantK/hindi2vec/releases/tag/bbc-hindi-v0.1 )。

初始数据收集和归一化
  • 最初的数据由MIDAS实验室的成员从印度网站上收集而来。他们通过众包数据注释流程从我们的语料库中随机选择了两个故事,并让三个注释员独立进行工作,根据话语模式对每个句子进行分类。
  • 有关详细信息,请参阅本文 https://www.aclweb.org/anthology/2020.lrec-1.149/
  • 话语还进一步划分为“辩论”、“描述性”、“对话式”、“信息性”和“叙述性”-5个类别。
谁是源语言生产者?

有关详细信息,请参阅本文 https://www.aclweb.org/anthology/2020.lrec-1.149/

注释

注释过程

数据集创建部分已经描述了注释过程。

谁是注释者?

注释是由机器自动完成的,并进行了对应的重新投射过程。

个人敏感信息

数据集中未提到个人和敏感信息。

使用数据的注意事项

请参阅本文 https://www.aclweb.org/anthology/2020.aacl-main.71

偏见讨论

数据集中没有已知的偏见。请参阅本文 https://www.aclweb.org/anthology/2020.aacl-main.71

其他已知限制

没有其他已知限制。数据规模可能不足以训练大型模型。

附加信息

请参阅链接 https://github.com/midas-research/hindi-nli-data

数据集维护者

在repo https://github.com/midas-research/hindi-nli-data 中有写道:

  • 本语料库可供研究目的自由使用。
  • 下面列出的论文提供了有关语料库的创建和使用的详细信息。如果您使用了该语料库,请引用该论文。
  • 如果有兴趣商业使用该语料库,请发送电子邮件至midas@iiitd.ac.in。
  • 如果您将该语料库用于产品或应用程序,请适当地向作者和印度信息技术印度普拉斯塔信息技术研究所多模态数字媒体分析实验室致谢。此外,如果您发送电子邮件给我们,我们将非常乐意了解您是如何使用该语料库的。
  • 印度信息技术印度普拉斯塔信息技术研究所多模态数字媒体分析实验室对于该语料库的使用不承担任何责任,并且不提供技术支持。但是,上述联系人将乐意回答查询和澄清。
  • 与其重新分发该语料库,不如将感兴趣的各方直接引导到此页面。
  • 请随时给我们发送电子邮件:
    • 提供有关语料库的反馈。
    • 告知您如何使用了该语料库的信息。
    • 如果有兴趣让我们为您的数据进行自然语言推理分析。
    • 如果有兴趣进行合作研究项目。

许可信息

版权所有(C)2019年印度信息技术印度普拉斯塔信息技术研究所多模态数字媒体分析实验室(MIDAS,IIIT-Delhi)。有关数据集的任何信息,请联系作者。

引用信息

    @inproceedings{uppal-etal-2020-two,
    title = "Two-Step Classification using Recasted Data for Low Resource Settings",
    author = "Uppal, Shagun  and
      Gupta, Vivek  and
      Swaminathan, Avinash  and
      Zhang, Haimin  and
      Mahata, Debanjan  and
      Gosangi, Rakesh  and
      Shah, Rajiv Ratn  and
      Stent, Amanda",
    booktitle = "Proceedings of the 1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing",
    month = dec,
    year = "2020",
    address = "Suzhou, China",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.aacl-main.71",
    pages = "706--719",
    abstract = "An NLP model{'}s ability to reason should be independent of language. Previous works utilize Natural Language Inference (NLI) to understand the reasoning ability of models, mostly focusing on high resource languages like English. To address scarcity of data in low-resource languages such as Hindi, we use data recasting to create NLI datasets for four existing text classification datasets. Through experiments, we show that our recasted dataset is devoid of statistical irregularities and spurious patterns. We further study the consistency in predictions of the textual entailment models and propose a consistency regulariser to remove pairwise-inconsistencies in predictions. We propose a novel two-step classification method which uses textual-entailment predictions for classification task. We further improve the performance by using a joint-objective for classification and textual entailment. We therefore highlight the benefits of data recasting and improvements on classification performance using our approach with supporting experimental results.",
}

贡献者

感谢 @avinsit123 添加此数据集。