数据集:

hindi_discourse

语言:

hi

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

other

源数据集:

original

许可:

other
英文

Discourse Analysis数据集的数据卡

数据集摘要

  • Hindi Discourse Analysis数据集是用于分析句子中存在的话语模式的语料库。
  • 它包含20世纪11位著名作家撰写的故事的句子。
  • 从每位作者选择了4-5个故事,这些故事在公共领域可用,共收集了53个故事。
  • 这些短篇小说大多是原著的Hindi版本,但其中一些是用其他印度语言写成的,后来翻译成了Hindi。

该语料库总共包含10472个句子,分属以下类别:

  • 争论型
  • 描述性
  • 对话型
  • 信息型
  • 叙述型

支持的任务和排行榜

  • Hindi话语分析。

语言

Hindi

数据集结构

  • 该数据集以JSON格式组织。

数据实例

{'Story_no': 15, 'Sentence': '从这可以看出,它花费了三卢比,现在甚至不会发出声音!是你的问题! “这里牵涉到主人有什么问题?”', 'Discourse Mode': '对话'}

数据字段

句子编号、故事编号、句子和话语模式

数据分割

  • 训练集:9983

数据集创建

策展理由

  • 提供一个新的公开可用的语料库,其中包含使用Hindi等低资源语言撰写的短篇故事的句子,并具有五种不同话语模式(争论型、叙述型、描述型、对话型和信息型)的高质量注释。
  • 对所提出的注释语料进行详细分析,并评估不同分类算法的性能。

源数据

  • 该数据集中所有数据点的来源是由印度著名文学作家撰写的Hindi故事。
初始数据收集和归一化
  • 所有数据均来自各种Hindi网站。
  • 我们选择不使用众包的注释过程,因为我们想直接与注释者合作,以获得定性反馈,并确保高质量的注释。
  • 我们雇用了三名具有大学水平教育背景的母语Hindi人员进行注释任务。
  • 我们首先从语料库中选择了两个随机故事,并让三名注释者独立工作,并根据话语模式对每个句子进行分类。
  • 详细信息,请参见本文 https://www.aclweb.org/anthology/2020.lrec-1.149/
谁是源语言制作者?

详细信息,请参见本文 https://www.aclweb.org/anthology/2020.lrec-1.149/

注释

注释过程
  • 由于该数据集具有高度敏感性质,作者选择不使用众包进行标记。
  • 注释者是领域专家,拥有高级临床心理学和性别研究学位。
  • 他们收到了一个指南文件,其中包含有关每个任务及其定义、标签和示例的说明。
  • 他们阅读了该文件,做了一些示例来熟悉这个注释任务。
  • 他们还提供了改进类别定义的反馈意见。
  • 注释过程不是互斥的,这意味着一个标签的存在并不意味着另一个标签的不存在。
谁是注释者?
  • 注释者是三名具有大学水平教育背景的母语Hindi人员。
  • 详细的注释过程,请参阅附带的论文。

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

  • 作为未来的工作,我们还希望使用所提供的语料库来研究它如何在某些下游任务中进一步应用,例如情感分析、机器翻译、文本蕴涵和语音合成,从而改善Hindi语言中的讲故事体验。

偏见讨论

[需要更多信息]

其他已知限制

  • 由于DL模型的数据不足,我们无法在数据上训练得到最佳性能的深度学习模型。

其他信息

请参阅此链接: https://github.com/midas-research/hindi-discourse

数据集策展者

  • 如果您在产品或应用程序中使用了该语料库,请适当地给予作者和[Multimodal Digital Media Analysis Lab-Indraprastha信息学研究所,新德里]( http://midas.iiitd.edu.in )适当的荣誉。此外,如果您给我们发送电子邮件,我们将非常乐意了解您如何使用该语料库的情况。
  • 如果有兴趣商业化利用该语料库,请发送电子邮件至midas@iiitd.ac.in。
  • Multimodal Digital Media Analysis Lab-Indraprastha信息学研究所,印度对于使用该语料库不承担任何责任,并且不提供技术支持。然而,上述联系人将乐于回答问题和澄清疑问
  • 欢迎随时给我们发送电子邮件:
    • 反馈有关该语料库的反馈。
    • 提供有关您如何使用该语料库的信息。
    • 如果有兴趣分析您的社交媒体数据。
    • 如果有兴趣进行合作研究项目。

许可信息

  • 如果您在产品或应用程序中使用了该语料库,请适当地给予作者和[Multimodal Digital Media Analysis Lab-Indraprastha信息学研究所,新德里]( http://midas.iiitd.edu.in )适当的荣誉。

引用信息

如果您使用了该数据集,请引用以下出版物: https://aclanthology.org/2020.lrec-1.149/

@inproceedings{dhanwal-etal-2020-annotated,
    title = "An Annotated Dataset of Discourse Modes in {H}indi Stories",
    author = "Dhanwal, Swapnil  and
      Dutta, Hritwik  and
      Nankani, Hitesh  and
      Shrivastava, Nilay  and
      Kumar, Yaman  and
      Li, Junyi Jessy  and
      Mahata, Debanjan  and
      Gosangi, Rakesh  and
      Zhang, Haimin  and
      Shah, Rajiv Ratn  and
      Stent, Amanda",
    booktitle = "Proceedings of the 12th Language Resources and Evaluation Conference",
    month = may,
    year = "2020",
    address = "Marseille, France",
    publisher = "European Language Resources Association",
    url = "https://www.aclweb.org/anthology/2020.lrec-1.149",
    pages = "1191--1196",
    abstract = "In this paper, we present a new corpus consisting of sentences from Hindi short stories annotated for five different discourse modes argumentative, narrative, descriptive, dialogic and informative. We present a detailed account of the entire data collection and annotation processes. The annotations have a very high inter-annotator agreement (0.87 k-alpha). We analyze the data in terms of label distributions, part of speech tags, and sentence lengths. We characterize the performance of various classification algorithms on this dataset and perform ablation studies to understand the nature of the linguistic models suitable for capturing the nuances of the embedded discourse structures in the presented corpus.",
    language = "English",
    ISBN = "979-10-95546-34-4",
}

贡献

感谢 @duttahritwik 添加了此数据集。