数据集:

MMInstruction/M3IT

任务:

图生文

图像分类

大小:

1M<n<10M

许可:

other

数据集介绍文件清单

英文

M3IT数据集卡片

项目页面: M3IT

语言

英文和中文。80个翻译版本可以在 M3IT-80 找到。

数据集统计信息

我们的数据集汇编了多样的经典视觉语言任务，包括字幕、视觉问答（VQA）、视觉条件生成、推理和分类。

指令统计信息

Task	#Instructions
Image Captioning	52
Classification	113
Visual Question Answering	95
Knowledgeable Visual QA	40
Reasoning	60
Generation	40
Total	400

任务统计信息

Task	Description	#Train	#Val	#Test
Image Captioning	Given an image, write a description for the image.	679,087	41,462	27,499
Classification	Given an image, classify the image into pre-defined categories.	238,303	100,069	21,206
Visual Question Answering	Given an image, answer a question relevant to the image.	177,633	46,314	10,828
Knowledgeable Visual QA	Given an image, answer the question requires outside knowledge.	39,981	11,682	5,477
Reasoning	Given an image, conduct reasoning over the images.	99,372	11,500	10,000
Generation	Given an image, make compositions with certain requirements.	145,000	11,315	17,350
Chinese	CAP, CLS, VQA, and GEN tasks in Chinese.	192,076	77,306	4,100
Video	CAP, CLS, and VQA tasks on video-language datasets.	20,868	7,542	9,294
Multi-lingual	Translated tasks in 80 languages	0	240,000	184,000

详细的数据集统计信息

Task	Dataset	#Train	#Val	#Test
Image Captioning	coco	566,747	25,010	25,010
textcap	97,765	13,965	0
image-paragraph-captioning	14,575	2,487	2,489
Classification	coco-goi	30,000	2,000	0
coco-text	118,312	27,550	0
imagenet	30,000	50,000	0
coco-itm	30,000	5,000	5,000
snli-ve	20,000	14,339	14,740
mocheg	4,991	180	466
iqa	5,000	1,000	1,000
Visual Question Answering	vqa-v2	30,000	30,000	0
shapes	13,568	1,024	1,024
docvqa	39,463	5,349	0
ocr-vqa	11,414	4,940	0
st-vqa	26,074	0	4,070
text-vqa	27,113	0	5,734
gqa	30,001	5,001	0
Knowledgeable Visual QA	okvqa	9,009	5,046	0
a-okvqa	17,056	1,145	0
science-qa	12,726	4,241	4,241
viquae	1,190	1,250	1,236
Reasoning	clevr	30,000	2,000	0
nlvr	29,372	2,000	0
vcr	25,000	5,000	5,000
visual-mrc	15,000	2,500	5,000
winoground	0	0	800
Generation	vist	5,000	4,315	4,350
visual-dialog	50,000	1,000	1,000
multi30k	90,000	6,000	12,000
Chinese	fm-iqa	164,735	75,206	0
coco-cn	18,341	1,000	1,000
flickr8k-cn	6,000	1,000	1,000
chinese-food	0	0	1,100
mmchat	3,000	1,000	1,000
Video	ss	2,000	2,000	2,000
ivqa	5,994	2,000	2,000
msvd-qa	1,161	245	504
activitynet-qa	3,200	1,800	800
msrvtt	6,513	497	2,990
msrvtt-qa	2,000	1,000	1,000

数据集结构

HuggingFace登录（可选）

# OR run huggingface-cli login
from huggingface_hub import login

hf_token = "hf_xxx"  # TODO: set a valid HuggingFace access token for loading datasets/models
login(token=hf_token)

数据加载

from datasets import load_dataset

ds_name = "coco"  # change the dataset name here
dataset = load_dataset("MMInstruction/M3IT", ds_name)

数据切分

from datasets import load_dataset

ds_name = "coco"  # change the dataset name here
dataset = load_dataset("MMInstruction/M3IT", ds_name)
train_set = dataset["train"]
validation_set = dataset["validation"]
test_set = dataset["test"]

数据实例

from datasets import load_dataset
from io import BytesIO
from base64 import b64decode
from PIL import Image

ds_name = "coco"  # change the dataset name here
dataset = load_dataset("MMInstruction/M3IT", ds_name)
train_set = dataset["train"]

for train_instance in train_set:
    instruction = train_instance["instruction"]  # str
    inputs = train_instance["inputs"]  # str
    outputs = train_instance["outputs"]  # str
    image_base64_str_list = train_instance["image_base64_str"]  # str (base64)
    image_0 = Image.open(BytesIO(b64decode(image_base64_str_list[0])))

数据字段

import datasets

features = datasets.Features(
    {
        "instruction": datasets.Value("string"),
        "inputs": datasets.Value("string"),
        "image_base64_str": [datasets.Value("string")],
        "outputs": datasets.Value("string"),
    }
)

数据集创建

策划理由

[需要更多信息]

源数据

Task	Dataset [Citation]	Source
Image Captioning	coco [1]	1238321
textcap [2]	1239321
image-paragraph-captioning [3]	12310321
Classification	coco-goi [1]	1238321
coco-text [4]	12312321
imagenet [5]	12313321
coco-itm [1]	1238321
snli-ve [6]	12315321
mocheg [7]	12316321
iqa [8]	12317321
Visual Question Answering	vqa-v2 [9]	12318321
shapes [10]	12319321
docvqa [11]	12320321
ocr-vqa [12]	12321321
st-vqa [13]	12322321
text-vqa [14]	12323321
gqa [15]	12324321
Knowledgeable Visual QA	okvqa [16]	12325321
a-okvqa [17]	12326321
science-qa [18]	12327321
viquae [19]	12328321
Reasoning	clevr [20]	12329321
nlvr [21]	12330321
vcr [22]	12331321
visual-mrc [23]	12332321
winoground [24]	12333321
Generation	vist [25]	12334321
visual-dialog [26]	12335321
multi30k [27]	12336321
Chinese	fm-iqa [28]	12337321
coco-cn [29]	12338321
flickr8k-cn [30]	12339321
chinese-food [31]	12340321
mmchat [32]	12341321
Video	ss [33]	12342321
ivqa [34]	12343321
msvd-qa [35]	12344321
activitynet-qa [36]	12345321
msrvtt [35]	12346321
msrvtt-qa [37]	12347321

注释

注释过程

为构建高质量的多模态指令数据集，我们将各种数据集重写为多模态到文本对话格式。注释过程包括四个步骤：

(1) 阶段一：编写指令：为每个任务编写指令；
(2) 阶段二：数据格式统一：将图像和文本结构化为统一的模式；
(3) 阶段三：质量检查：检查整个数据集的质量；
(4) 阶段四：关键数据集翻译：构建多语言数据集。

谁是注释者？

本工作的八位作者是人工注释者，每位作者都是熟悉相关文献的研究生。

其他信息

授权信息

原始数据集的内容遵循其原始授权协议。我们建议，对于未知/定制许可证的任务，用户可查看原始项目或联系数据集所有者获取详细的许可信息。

我们的注释指令数据受 CC BY 4.0 许可。

引用信息

@article{li2023m3it,
  title={M$^3$IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning},
  author={Lei Li and Yuwei Yin and Shicheng Li and Liang Chen and Peiyi Wang and Shuhuai Ren and Mukai Li and Yazheng Yang and Jingjing Xu and Xu Sun and Lingpeng Kong and Qi Liu},
  journal={arXiv preprint arXiv:2306.04387},
  year={2023}
}

贡献

M3IT是一个开源的、大规模的多模态、多语言指令调优数据集，旨在实现通用多模态智能体的开发。

参考资料

[1] Microsoft COCO：上下文中的常见对象
[2] TextCaps：带有阅读理解的图像字幕数据集
[3] 生成描述性图像段落的分层方法
[4] COCO-Text：自然图像中的文本检测和识别数据集
[5] Imagenet大规模视觉识别挑战
[6] E-ViL：视觉-语言任务中的自然语言解释数据集
[7] 端到端的多模态事实核查和解释生成：一个具有挑战性的数据集和模型
[8] 量化视觉图像质量：贝叶斯观点
[9] 让V在VQA中很重要：提升图像理解在视觉问答中的作用
[10] 神经模块网络
[11] DocVQA：用于文档图像上的VQA的数据集
[12] OCR-VQA：通过读取图像中的文本进行视觉问答
[13] 场景文本视觉问答
[14] 走向可以阅读的VQA模型
[15] GQA：用于实际世界视觉推理和组合性问题回答的新数据集
[16] OK-VQA：需要外部知识的视觉问答基准
[17] A-OKVQA：使用世界知识的视觉问答基准
[18] 学会解释：通过思维链进行科学问题回答的多模态推理
[19] ViQuAE：用于基于知识的命名实体视觉问答的数据集
[20] CLEVR：用于组合语言和基础视觉推理的诊断性数据集
[21] 用于视觉推理的自然语言语料库
[22] 从认知到认知：视觉常识推理
[23] VisualMRC：文档图像上的机器阅读理解
[24] WinoGround：用于探索视觉和语言模型的视觉语言组合性
[25] 视觉故事讲述
[26] 视觉对话
[27] Multi30k：英德多语种图像描述数据集
[28] 您是否在与机器交谈？用于多语种图像问答的数据集和方法
[29] 跨语言图像标记、字幕和检索的COCO-CN数据集
[30] 为图像添加汉语字幕
[31] ChineseFoodNet：用于中式菜品识别的大规模图像数据集
[32] MMChat：社交媒体上的多模态聊天数据集
[33] "某事某事"视频数据库用于学习和评估视觉常识
[34] 只要问：从数百万个叙述视频中学习回答问题
[35] 逐渐完善的外观和动作注意力实现的视频问答
[36] ActivityNet-qa：通过问答理解复杂的网络视频的数据集
[37] MSR-VTT：用于桥接视频和语言的大规模视频描述数据集

作者:

MMInstruction

数据集大小:

241.48 GB