数据集:

bbc_hindi_nli

语言:

hi

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

machine-generated

许可:

mit
英文

BBC Hindi NLI 数据集信息卡

数据集概述

  • 用于印地语自然语言推理的数据集。BBC Hindi 数据集包含文本蕴含对。
  • 数据集的每一行由四个列组成 - 前提、假设、标签和主题。
  • 上下文和假设以印地语书写,而蕴含标签则以英语书写。
  • 蕴含标签分为两种类型 - 蕴含和非蕴含。
  • 数据集可用于训练印地语自然语言推理任务的模型。[需要更多信息]

支持的任务和排行榜

  • 印地语自然语言推理

语言

数据集为印地语。

数据集结构

  • 数据以 TSV 格式结构化。
  • 训练和测试文件存储在不同的文件中。

数据实例

'train' 的一个例子如下所示。

{'hypothesis': 'यह खबर की सूचना है|', 'label': 'entailed', 'premise': 'गोपनीयता की नीति', 'topic': '1'}

数据字段

  • 每行包含四个列 - 前提、假设、标签和主题。

数据集拆分

  • 训练集:15553
  • 验证集:2581
  • 测试集:2593

数据集创建

  • 我们采用 Poliak 等人的 recasting 技术,将公开可用的 BBC 印地语新闻文本分类数据集转换为 TE 问题。
  • 在这个转换过程中,我们为标签分类中的每个类建立模板假设。
  • 然后,我们将原始的带有注释句子与每个模板假设进行配对,创建 TE 样本。
  • 有关转换过程的更多信息,请参阅论文 " https://www.aclweb.org/anthology/2020.aacl-main.71" "。

源数据

转换过程的源数据集为 BBC 印地语头条新闻数据集( https://github.com/NirantK/hindi2vec/releases/tag/bbc-hindi-v0.1 )。

初始数据收集和规范化

  • BBC 印地语新闻分类数据集包括4,335条标记在14个类别下的印地语新闻标题:印度、巴基斯坦、新闻、国际、娱乐、体育、科学、中国、学习英语、社会、南亚、商业、机构和多媒体。
  • 我们对该数据集进行处理,将两组相关但低频率的类别合并。
  • 具体来说,我们将巴基斯坦、中国、国际和南亚的样本合并为一个名为“国际”的类别。
  • 同样地,我们还将新闻、商业、社会、学习英语和机构的样本合并为“新闻”类别。
  • 最后,我们还删除了多媒体类别,因为样本非常少。

源语言制作者是谁?

请参考这篇论文:" https://www.aclweb.org/anthology/2020.aacl-main.71" "。

注释

注释过程在 "数据集创建" 部分已经描述。

谁是注释者?

注释是自动完成的。

个人和敏感信息

数据集中没有提到个人和敏感信息。

使用数据的注意事项

请参考这篇论文:" https://www.aclweb.org/anthology/2020.aacl-main.71 "。

偏见讨论

请参考这篇论文:" https://www.aclweb.org/anthology/2020.aacl-main.71 "。

其他已知限制

没有其他已知限制。

附加信息

请参考这个链接:" https://github.com/midas-research/hindi-nli-data "。

数据集策展人

仓库中写道:" https://github.com/avinsit123/hindi-nli-data "

  • 本语料库可以免费用于研究目的。
  • 下面列出的论文详细介绍了该语料库的创建和使用。如果您使用了该语料库,请引用该论文。
  • 如果有兴趣商业使用该语料库,请发送电子邮件至 "midas@iiitd.ac.in"。
  • 如果您在产品或应用中使用了该语料库,请适当地向作者和印度新德里印刷厂信息技术学院多模数字媒体分析实验室致谢。此外,如果您发送电子邮件给我们,我们将非常高兴了解您如何使用该语料库。
  • 印度新德里的多模数字媒体分析实验室对于使用该语料库概不负责,并且不提供技术支持。然而,上述联系人将很乐意回答疑问和解释。
  • 请不要重新分发该语料库,而是将有兴趣的人直接引导到此页面。
  • 请随时发送电子邮件给我们:
    • 给出有关语料库的反馈。
    • 提供有关您如何使用语料库的信息。
    • 如果有兴趣让我们分析您的自然语言推理数据。
    • 如果有兴趣进行合作研究项目。

许可信息

版权所有 (C) 2019 年德里多模数字媒体分析实验室 - 新德里印度信息技术学院 (MIDAS, IIIT-Delhi)。请联系作者获取有关数据集的任何信息。

引用信息

    @inproceedings{uppal-etal-2020-two,
    title = "Two-Step Classification using Recasted Data for Low Resource Settings",
    author = "Uppal, Shagun  and
      Gupta, Vivek  and
      Swaminathan, Avinash  and
      Zhang, Haimin  and
      Mahata, Debanjan  and
      Gosangi, Rakesh  and
      Shah, Rajiv Ratn  and
      Stent, Amanda",
    booktitle = "Proceedings of the 1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing",
    month = dec,
    year = "2020",
    address = "Suzhou, China",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.aacl-main.71",
    pages = "706--719",
    abstract = "An NLP model{'}s ability to reason should be independent of language. Previous works utilize Natural Language Inference (NLI) to understand the reasoning ability of models, mostly focusing on high resource languages like English. To address scarcity of data in low-resource languages such as Hindi, we use data recasting to create NLI datasets for four existing text classification datasets. Through experiments, we show that our recasted dataset is devoid of statistical irregularities and spurious patterns. We further study the consistency in predictions of the textual entailment models and propose a consistency regulariser to remove pairwise-inconsistencies in predictions. We propose a novel two-step classification method which uses textual-entailment predictions for classification task. We further improve the performance by using a joint-objective for classification and textual entailment. We therefore highlight the benefits of data recasting and improvements on classification performance using our approach with supporting experimental results.",
}

贡献

感谢 @avinsit123 添加了这个数据集。