数据集:
silver/mmchat
任务:
对话子任务:
dialogue-generation语言:
zh计算机处理:
monolingual大小:
10M<n<100M语言创建人:
found批注创建人:
no-annotation源数据集:
original许可:
otherMMChat 是一个包含中文图像对话的大规模对话数据集。MMChat 中的每个对话都与一个或多个图像相关联(每个对话最多有 9 张图像)。我们设计了各种策略来确保 MMChat 中对话的质量。
MMChat 有 4 个不同的版本:
如果您希望使用与给定图像密切相关的高质量多模式对话,请使用 mmchat_hf 版本。如果您只关心对话文本的质量,请使用 mmchat_lccc_filtered 版本。
MMChat 是中文的。
MMChat中的对话是中文的
可用多个版本的 MMChat。对于 mmchat,mmchat_raw,mmchat_lccc_filtered,适用以下实例:
{ "dialog": ["你只拍出了你十分之一的美", "你的头像竟然换了,奥"], "weibo_content": "分享图片", "imgs": ["https://wx4.sinaimg.cn/mw2048/d716a6e2ly1fmug2w2l9qj21o02yox6p.jpg"] }
对于 mmchat_hf,适用以下实例:
{ "dialog": ["白百合", "啊?", "有点像", "还好吧哈哈哈牙像", "有男盆友没呢", "还没", "和你说话呢。没回我"], "weibo_content": "补一张昨天礼仪的照片", "imgs": ["https://ww2.sinaimg.cn/mw2048/005Co9wdjw1eyoz7ib9n5j307w0bu3z5.jpg"], "labels": { "image_qualified": true, "dialog_qualified": true, "dialog_image_related": true } }
对于 mmchat,我们提供以下拆分:
train | valid | test |
---|---|---|
115,842 | 4,000 | 1,000 |
对于其他版本,我们没有提供官方拆分。以下是更多统计信息:
mmchat | Count |
---|---|
Sessions | 120.84 K |
Sessions with more than 4 utterances | 17.32 K |
Utterances | 314.13 K |
Images | 198.82 K |
Avg. utterance per session | 2.599 |
Avg. image per session | 2.791 |
Avg. character per utterance | 8.521 |
mmchat_hf | Count |
---|---|
Sessions | 19.90 K |
Sessions with more than 4 utterances | 8.91 K |
Totally annotated sessions | 100.01 K |
Utterances | 81.06 K |
Images | 52.66K |
Avg. utterance per session | 4.07 |
Avg. image per session | 2.70 |
Avg. character per utterance | 11.93 |
mmchat_raw | Count |
---|---|
Sessions | 4.257 M |
Sessions with more than 4 utterances | 2.304 M |
Utterances | 18.590 M |
Images | 4.874 M |
Avg. utterance per session | 4.367 |
Avg. image per session | 1.670 |
Avg. character per utterance | 14.104 |
mmchat_lccc_filtered | Count |
---|---|
Sessions | 492.6 K |
Sessions with more than 4 utterances | 208.8 K |
Utterances | 1.986 M |
Images | 1.066 M |
Avg. utterance per session | 4.031 |
Avg. image per session | 2.514 |
Avg. character per utterance | 11.336 |
[需要更多信息]
[需要更多信息]
源语言制作者是谁?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
other-weibo
该数据集是从微博收集的。您可以参考以下链接来使用该数据集。请将该数据集的使用限制为非商业用途。
@inproceedings{zheng2022MMChat, author = {Zheng, Yinhe and Chen, Guanyi and Liu, Xin and Sun, Jian}, title = {MMChat: Multi-Modal Chat Dataset on Social Media}, booktitle = {Proceedings of The 13th Language Resources and Evaluation Conference}, year = {2022}, publisher = {European Language Resources Association}, } @inproceedings{wang2020chinese, title={A Large-Scale Chinese Short-Text Conversation Dataset}, author={Wang, Yida and Ke, Pei and Zheng, Yinhe and Huang, Kaili and Jiang, Yong and Zhu, Xiaoyan and Huang, Minlie}, booktitle={NLPCC}, year={2020}, url={https://arxiv.org/abs/2008.03946} }
感谢 Yinhe Zheng 添加此数据集。