数据集:

cmu_hinglish_dog

任务:

翻译

语言:

en hi

大小:

1K<n<10K

语言创建人:

crowdsourced

批注创建人:

machine-generated

源数据集:

original

预印本库:

arxiv:1809.07358
英文

CMU Document Grounded Conversations 数据集卡片

数据集摘要

这是一组 Hinglish(印地语-英语混合)文本对话及其对应的英语版本。可用于两种语言之间的翻译。该数据集由CMU的Alan Black教授的团队提供。

支持的任务和排行榜

  • 抽象化机器翻译

语言

数据集结构

数据实例

典型的数据点包括一段Hinglish文本,其关键字为 hi_en,以及其英文版本,关键字为 en。字段 docIdx 包含utterance说出时wiki文档的当前节索引。每个文档总共有4节。字段 uid 是此utterance的用户ID。

CMU_Hinglish_DoG训练集中的一个示例如下所示:

{'rating': 2,
 'wikiDocumentIdx': 13,
 'utcTimestamp': '2018-03-16T17:48:22.037Z',
 'uid': 'user2',
 'date': '2018-03-16T17:47:21.964Z',
 'uid2response': {'response': [1, 2, 3, 5], 'type': 'finish'},
 'uid1LogInTime': '2018-03-16T17:47:21.964Z',
 'user2_id': 'USR664',
 'uid1LogOutTime': '2018-03-16T18:02:29.072Z',
 'whoSawDoc': ['user1', 'user2'],
 'status': 1,
 'docIdx': 0,
 'uid1response': {'response': [1, 2, 3, 4], 'type': 'finish'},
 'translation': {'en': 'The director is Zack Snyder, 27% Rotten Tomatoes, 4.9/10.',
  'hi_en': 'Zack Snyder director hai, 27% Rotten Tomatoes, 4.9/10.'}}

数据字段

  • date :文件创建的时间,作为字符串
  • docIdx :utterance说出时wiki文档的当前节索引。每个文档总共有4节。
  • translation :
    • hi_en : Hinglish文本
    • en : 英文文本
  • uid :此utterance的用户ID。
  • utcTimestamp :此utterance的服务器utc时间戳,作为字符串
  • rating : 1或2或3的数字。数字越大,表示对话质量更好。
  • status :作为整数的状态
  • uid1LogInTime :用户1的登录时间,作为字符串(可选)
  • uid1LogOutTime :用户1的注销时间,作为字符串(可选)
  • uid1response :一个包含用户完成对话后的状态和响应的JSON对象。对象中的字段包括:
    • type :应为 ['finish', 'abandon','abandonWithouAnsweringFeedbackQuestion']之一。'finish'表示用户成功完成对话,要么是通过完成12或15轮,要么是对话的另一方先离开。 'abandon'表示用户在对话中间放弃对话,而进入反馈页面。'abandonWithouAnsweringFeedbackQuestion'表示用户在没有提供反馈的情况下仅断开或关闭网页。
    • response :对后续问题的回答。工作者可以选择其中多个选项。向用户呈现的选项如下:对于'type'为'finish'的情况 1: 对话可理解。 2: 另一方积极回应我。 3: 对话进行顺利。对于'type'为'abandon'的情况 1: 另一方太粗鲁。 2: 我不知道如何继续对话。 3: 另一方没有回应我。对于给定文档的用户 4: 我之前看过这部电影。 5: 我之前没有看过这部电影。对于没有文档的用户 4: 我将在另一方介绍之后观看这部电影。 5: 我不会在另一方介绍之后观看这部电影。
  • uid2response :与uid1response相同
  • user2_id :用户2的生成的用户ID
  • whoSawDoc :应为['user1 '], ['user2 '], ['user1', 'user2 ' ]中的一个。指示哪个用户阅读了文档。
  • wikiDocumentId :wiki文档的索引

数据拆分

name train validation test
CMU DOG 8060 942 960

数据集创建

[需要更多信息]

策划理由

[需要更多信息]

源数据

Hinglish数据集源自原始的CMU DoG(基于文档的对话数据集)。有关详细信息,请参见 repo

初始数据收集和归一化

[需要更多信息]

谁是源语言制作者?

[需要更多信息]

注释

[需要更多信息]

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据的社会影响

这个数据集的目的是帮助开发更好的问答系统。

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

该数据集最初由CMU的Alan W Black教授的团队创建

许可信息

[需要更多信息]

引用信息

@inproceedings{
    cmu_dog_emnlp18,
    title={A Dataset for Document Grounded Conversations},
    author={Zhou, Kangyan and Prabhumoye, Shrimai and Black, Alan W},
    year={2018},
    booktitle={Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing}
}

贡献者

感谢 @Ishan-Kumar2 添加了这个数据集。