数据集:

MMInstruction/M3IT

英文

M3IT数据集卡片

项目页面: M3IT

语言

英文和中文。80个翻译版本可以在 M3IT-80 找到。

数据集统计信息

我们的数据集汇编了多样的经典视觉语言任务,包括字幕、视觉问答(VQA)、视觉条件生成、推理和分类。

指令统计信息

Task #Instructions
Image Captioning 52
Classification 113
Visual Question Answering 95
Knowledgeable Visual QA 40
Reasoning 60
Generation 40
Total 400

任务统计信息

Task Description #Train #Val #Test
Image Captioning Given an image, write a description for the image. 679,087 41,462 27,499
Classification Given an image, classify the image into pre-defined categories. 238,303 100,069 21,206
Visual Question Answering Given an image, answer a question relevant to the image. 177,633 46,314 10,828
Knowledgeable Visual QA Given an image, answer the question requires outside knowledge. 39,981 11,682 5,477
Reasoning Given an image, conduct reasoning over the images. 99,372 11,500 10,000
Generation Given an image, make compositions with certain requirements. 145,000 11,315 17,350
Chinese CAP, CLS, VQA, and GEN tasks in Chinese. 192,076 77,306 4,100
Video CAP, CLS, and VQA tasks on video-language datasets. 20,868 7,542 9,294
Multi-lingual Translated tasks in 80 languages 0 240,000 184,000

详细的数据集统计信息

Task Dataset #Train #Val #Test
Image Captioning coco 566,747 25,010 25,010
textcap 97,765 13,965 0
image-paragraph-captioning 14,575 2,487 2,489
Classification coco-goi 30,000 2,000 0
coco-text 118,312 27,550 0
imagenet 30,000 50,000 0
coco-itm 30,000 5,000 5,000
snli-ve 20,000 14,339 14,740
mocheg 4,991 180 466
iqa 5,000 1,000 1,000
Visual Question Answering vqa-v2 30,000 30,000 0
shapes 13,568 1,024 1,024
docvqa 39,463 5,349 0
ocr-vqa 11,414 4,940 0
st-vqa 26,074 0 4,070
text-vqa 27,113 0 5,734
gqa 30,001 5,001 0
Knowledgeable Visual QA okvqa 9,009 5,046 0
a-okvqa 17,056 1,145 0
science-qa 12,726 4,241 4,241
viquae 1,190 1,250 1,236
Reasoning clevr 30,000 2,000 0
nlvr 29,372 2,000 0
vcr 25,000 5,000 5,000
visual-mrc 15,000 2,500 5,000
winoground 0 0 800
Generation vist 5,000 4,315 4,350
visual-dialog 50,000 1,000 1,000
multi30k 90,000 6,000 12,000
Chinese fm-iqa 164,735 75,206 0
coco-cn 18,341 1,000 1,000
flickr8k-cn 6,000 1,000 1,000
chinese-food 0 0 1,100
mmchat 3,000 1,000 1,000
Video ss 2,000 2,000 2,000
ivqa 5,994 2,000 2,000
msvd-qa 1,161 245 504
activitynet-qa 3,200 1,800 800
msrvtt 6,513 497 2,990
msrvtt-qa 2,000 1,000 1,000

数据集结构

HuggingFace登录(可选)

# OR run huggingface-cli login
from huggingface_hub import login

hf_token = "hf_xxx"  # TODO: set a valid HuggingFace access token for loading datasets/models
login(token=hf_token)

数据加载

from datasets import load_dataset

ds_name = "coco"  # change the dataset name here
dataset = load_dataset("MMInstruction/M3IT", ds_name)

数据切分

from datasets import load_dataset

ds_name = "coco"  # change the dataset name here
dataset = load_dataset("MMInstruction/M3IT", ds_name)
train_set = dataset["train"]
validation_set = dataset["validation"]
test_set = dataset["test"]

数据实例

from datasets import load_dataset
from io import BytesIO
from base64 import b64decode
from PIL import Image

ds_name = "coco"  # change the dataset name here
dataset = load_dataset("MMInstruction/M3IT", ds_name)
train_set = dataset["train"]

for train_instance in train_set:
    instruction = train_instance["instruction"]  # str
    inputs = train_instance["inputs"]  # str
    outputs = train_instance["outputs"]  # str
    image_base64_str_list = train_instance["image_base64_str"]  # str (base64)
    image_0 = Image.open(BytesIO(b64decode(image_base64_str_list[0])))

数据字段

import datasets

features = datasets.Features(
    {
        "instruction": datasets.Value("string"),
        "inputs": datasets.Value("string"),
        "image_base64_str": [datasets.Value("string")],
        "outputs": datasets.Value("string"),
    }
)

数据集创建

策划理由

[需要更多信息]

源数据

Task Dataset [Citation] Source
Image Captioning coco [1] 1238321
textcap [2] 1239321
image-paragraph-captioning [3] 12310321
Classification coco-goi [1] 1238321
coco-text [4] 12312321
imagenet [5] 12313321
coco-itm [1] 1238321
snli-ve [6] 12315321
mocheg [7] 12316321
iqa [8] 12317321
Visual Question Answering vqa-v2 [9] 12318321
shapes [10] 12319321
docvqa [11] 12320321
ocr-vqa [12] 12321321
st-vqa [13] 12322321
text-vqa [14] 12323321
gqa [15] 12324321
Knowledgeable Visual QA okvqa [16] 12325321
a-okvqa [17] 12326321
science-qa [18] 12327321
viquae [19] 12328321
Reasoning clevr [20] 12329321
nlvr [21] 12330321
vcr [22] 12331321
visual-mrc [23] 12332321
winoground [24] 12333321
Generation vist [25] 12334321
visual-dialog [26] 12335321
multi30k [27] 12336321
Chinese fm-iqa [28] 12337321
coco-cn [29] 12338321
flickr8k-cn [30] 12339321
chinese-food [31] 12340321
mmchat [32] 12341321
Video ss [33] 12342321
ivqa [34] 12343321
msvd-qa [35] 12344321
activitynet-qa [36] 12345321
msrvtt [35] 12346321
msrvtt-qa [37] 12347321

注释

注释过程

为构建高质量的多模态指令数据集,我们将各种数据集重写为多模态到文本对话格式。注释过程包括四个步骤:

  • (1) 阶段一:编写指令:为每个任务编写指令;
  • (2) 阶段二:数据格式统一:将图像和文本结构化为统一的模式;
  • (3) 阶段三:质量检查:检查整个数据集的质量;
  • (4) 阶段四:关键数据集翻译:构建多语言数据集。
谁是注释者?

本工作的八位作者是人工注释者,每位作者都是熟悉相关文献的研究生。

其他信息

授权信息

原始数据集的内容遵循其原始授权协议。我们建议,对于未知/定制许可证的任务,用户可查看原始项目或联系数据集所有者获取详细的许可信息。

我们的注释指令数据受 CC BY 4.0 许可。

引用信息

@article{li2023m3it,
  title={M$^3$IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning},
  author={Lei Li and Yuwei Yin and Shicheng Li and Liang Chen and Peiyi Wang and Shuhuai Ren and Mukai Li and Yazheng Yang and Jingjing Xu and Xu Sun and Lingpeng Kong and Qi Liu},
  journal={arXiv preprint arXiv:2306.04387},
  year={2023}
}

贡献

M3IT是一个开源的、大规模的多模态、多语言指令调优数据集,旨在实现通用多模态智能体的开发。

参考资料

  • [1] Microsoft COCO:上下文中的常见对象
  • [2] TextCaps:带有阅读理解的图像字幕数据集
  • [3] 生成描述性图像段落的分层方法
  • [4] COCO-Text:自然图像中的文本检测和识别数据集
  • [5] Imagenet大规模视觉识别挑战
  • [6] E-ViL:视觉-语言任务中的自然语言解释数据集
  • [7] 端到端的多模态事实核查和解释生成:一个具有挑战性的数据集和模型
  • [8] 量化视觉图像质量:贝叶斯观点
  • [9] 让V在VQA中很重要:提升图像理解在视觉问答中的作用
  • [10] 神经模块网络
  • [11] DocVQA:用于文档图像上的VQA的数据集
  • [12] OCR-VQA:通过读取图像中的文本进行视觉问答
  • [13] 场景文本视觉问答
  • [14] 走向可以阅读的VQA模型
  • [15] GQA:用于实际世界视觉推理和组合性问题回答的新数据集
  • [16] OK-VQA:需要外部知识的视觉问答基准
  • [17] A-OKVQA:使用世界知识的视觉问答基准
  • [18] 学会解释:通过思维链进行科学问题回答的多模态推理
  • [19] ViQuAE:用于基于知识的命名实体视觉问答的数据集
  • [20] CLEVR:用于组合语言和基础视觉推理的诊断性数据集
  • [21] 用于视觉推理的自然语言语料库
  • [22] 从认知到认知:视觉常识推理
  • [23] VisualMRC:文档图像上的机器阅读理解
  • [24] WinoGround:用于探索视觉和语言模型的视觉语言组合性
  • [25] 视觉故事讲述
  • [26] 视觉对话
  • [27] Multi30k:英德多语种图像描述数据集
  • [28] 您是否在与机器交谈?用于多语种图像问答的数据集和方法
  • [29] 跨语言图像标记、字幕和检索的COCO-CN数据集
  • [30] 为图像添加汉语字幕
  • [31] ChineseFoodNet:用于中式菜品识别的大规模图像数据集
  • [32] MMChat:社交媒体上的多模态聊天数据集
  • [33] "某事某事"视频数据库用于学习和评估视觉常识
  • [34] 只要问:从数百万个叙述视频中学习回答问题
  • [35] 逐渐完善的外观和动作注意力实现的视频问答
  • [36] ActivityNet-qa:通过问答理解复杂的网络视频的数据集
  • [37] MSR-VTT:用于桥接视频和语言的大规模视频描述数据集