数据集:
cmu_hinglish_dog
任务:
翻译大小:
1K<n<10K语言创建人:
crowdsourced批注创建人:
machine-generated源数据集:
original预印本库:
arxiv:1809.07358这是一组 Hinglish(印地语-英语混合)文本对话及其对应的英语版本。可用于两种语言之间的翻译。该数据集由CMU的Alan Black教授的团队提供。
典型的数据点包括一段Hinglish文本,其关键字为 hi_en,以及其英文版本,关键字为 en。字段 docIdx 包含utterance说出时wiki文档的当前节索引。每个文档总共有4节。字段 uid 是此utterance的用户ID。
CMU_Hinglish_DoG训练集中的一个示例如下所示:
{'rating': 2, 'wikiDocumentIdx': 13, 'utcTimestamp': '2018-03-16T17:48:22.037Z', 'uid': 'user2', 'date': '2018-03-16T17:47:21.964Z', 'uid2response': {'response': [1, 2, 3, 5], 'type': 'finish'}, 'uid1LogInTime': '2018-03-16T17:47:21.964Z', 'user2_id': 'USR664', 'uid1LogOutTime': '2018-03-16T18:02:29.072Z', 'whoSawDoc': ['user1', 'user2'], 'status': 1, 'docIdx': 0, 'uid1response': {'response': [1, 2, 3, 4], 'type': 'finish'}, 'translation': {'en': 'The director is Zack Snyder, 27% Rotten Tomatoes, 4.9/10.', 'hi_en': 'Zack Snyder director hai, 27% Rotten Tomatoes, 4.9/10.'}}
name | train | validation | test |
---|---|---|---|
CMU DOG | 8060 | 942 | 960 |
[需要更多信息]
[需要更多信息]
Hinglish数据集源自原始的CMU DoG(基于文档的对话数据集)。有关详细信息,请参见 repo
初始数据收集和归一化[需要更多信息]
谁是源语言制作者?[需要更多信息]
[需要更多信息]
注释过程[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
这个数据集的目的是帮助开发更好的问答系统。
[需要更多信息]
[需要更多信息]
该数据集最初由CMU的Alan W Black教授的团队创建
[需要更多信息]
@inproceedings{ cmu_dog_emnlp18, title={A Dataset for Document Grounded Conversations}, author={Zhou, Kangyan and Prabhumoye, Shrimai and Black, Alan W}, year={2018}, booktitle={Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing} }
感谢 @Ishan-Kumar2 添加了这个数据集。