英文

WIT 数据集卡片

数据集概述

维基媒体的维基百科图像文本(WIT)数据集,是一个大型的多模态多语言数据集。

来自 official blog post

核心训练数据来自维基百科图像文本(WIT)数据集,这是一个最近由谷歌研究发布的,从108种语言的维基百科文章中提取的超过3千万个图像文本关联的大型策划数据集。

WIT 数据集提供了关于维基百科图片关联文本的非常有价值的数据。然而,由于许可和数据量的问题,谷歌数据集只提供图像名称和相应的 URL 进行下载,而不提供原始图像文件。

获取图像文件的易用性对于参与者成功开发竞争模型至关重要。因此,今天,维基媒体研究团队发布了他们的第一个大型图像数据集。它包含来自100多种语言的维基百科文章中的600多万个图像文件,几乎对应于 WIT 数据集中的所有带标题的图像。图像文件以300像素的分辨率提供,这个尺寸适用于大多数用于分类和分析图像的学习框架。

对于隐私原因,我们不发布出现人物为主题的图像,即人脸覆盖图像表面超过10%的图像。为了确定人脸及其边界框,我们使用了 RetinaFace 检测器。此外,为了避免包含不适当的图像或侵犯版权约束的图像,我们已从数据集中删除所有在共享资源上有待删除的图像。

注意:与 Google's version 相比,该版本将不同语言中 Wikipedia 页面中的内容组合成一个数据样本,以避免图像字节的重复。

支持的任务和排行榜

  • 图像字幕生成:可使用此数据集训练图像字幕生成模型,目标是根据图像预测标题。

  • 文本检索:此任务的目标是构建一个能够检索与图像最接近的文本( 标题和参考描述 )的模型。此任务的排行榜可在 here 中找到。这个任务还有一个关于 Kaggle 的竞赛。

在这些任务中,可以使用 标题参考描述 、 标题归属描述 和 标题替代描述 字段的任意组合作为输入文本/标题。

语言

数据集包含各种维基百科语言的示例。

数据集结构

数据实例

每个实例是一个图像,其字节表示,预计算的嵌入向量,以及维基百科中附加到图像的一组标题。

{
  'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=300x225 at 0x7F88F3876358>,
  'image_url': 'https://upload.wikimedia.org/wikipedia/commons/8/8b/Scolopendra_gigantea.jpg',
  'embedding': [1.4784087, 2.8710432, 0.0, 0.51603067, ..., 10.266883, 0.51142216, 0.0, 2.3464653],
  'metadata_url': 'http://commons.wikimedia.org/wiki/File:Scolopendra_gigantea.jpg',
  'original_height': 3000,
  'original_width': 4000,
  'mime_type': 'image/jpeg',
  'caption_attribution_description': 'English: Puerto Rican Giant Centipede, Scolopendra gigantea; Vieques, Puerto Rico Slovenčina: Stonožka obrovská, Scolopendra gigantea; Vieques, Portoriko',
  'wit_features': {
    'language': ['ro', 'vi', 'sk', ..., 'nl', 'th', 'lv'],
    'page_url': ['https://ro.wikipedia.org/wiki/Scolopendra_gigantea', 'https://vi.wikipedia.org/wiki/Scolopendra_gigantea', 'https://sk.wikipedia.org/wiki/Scolopendra_gigantea', ..., 'https://nl.wikipedia.org/wiki/Scolopendra_gigantea', 'https://th.wikipedia.org/wiki/%E0%B8%95%E0%B8%B0%E0%B8%82%E0%B8%B2%E0%B8%9A%E0%B8%A2%E0%B8%B1%E0%B8%81%E0%B8%A9%E0%B9%8C%E0%B8%82%E0%B8%B2%E0%B9%80%E0%B8%AB%E0%B8%A5%E0%B8%B7%E0%B8%AD%E0%B8%87%E0%B9%80%E0%B8%9B%E0%B8%A3%E0%B8%B9', 'https://lv.wikipedia.org/wiki/Skolopendru_dzimta'],
    'attribution_passes_lang_id': [True, True, True, ..., True, True, True],
    'caption_alt_text_description': [None, None, None, ..., 'Scolopendra gigantea', None, 'Milzu skolopendra (Scolopendra gigantea)'],
    'caption_reference_description': [None, None, None, ..., None, None, 'Milzu skolopendra (Scolopendra gigantea)'],
    'caption_title_and_reference_description': [None, 'Scolopendra gigantea [SEP] ', None, ..., 'Scolopendra gigantea [SEP] ', None, 'Skolopendru dzimta [SEP] Milzu skolopendra (Scolopendra gigantea)'],
    'context_page_description': ['Scolopendra gigantea este un miriapod din clasa Chilopoda, fiind cel mai mare reprezentant al genului Scolopendra. Adultul poate atinge o lungime de 26 cm, uneori depășind 30 cm. Această specie habitează în regiunile de nord și de vest a Americii de Sud, pe insulele Trinidad, insulele Virgine, Jamaica Hispaniola ș.a. Localnicii denumesc scolopendra chilopodul gigant galben și chilopodul gigant amazonian.', 'Scolopendra gigantea là đại diện lớn nhất của chi Scolopendra nói riêng và cả lớp rết nói chung, thường đạt độ dài 26 cm và có thể vượt quá 30 cm. Sinh sống ở khu vực phía bắc và tây của Nam Mỹ và các đảo Trinidad, Puerto Rico, Saint Thomas, U.S. Virgin Islands, Jamaica, và Hispaniola.', 'Scolopendra gigantea, starší slovenský nazov: štípavica veľká, je živočích z rodu Scolopendra, s veľkosťou do 30 cm.', ..., 'Scolopendra gigantea is een tijgerduizendpoot uit Zuid-Amerika. De soort jaagt onder andere op grote geleedpotigen, amfibieën, reptielen en kleine zoogdieren. Het is voor zover bekend de grootste niet uitgestorven duizendpoot ter wereld.', 'ตะขาบยักษ์ขาเหลืองเปรู หรือ ตะขาบยักษ์อเมซอน เป็นตะขาบชนิดที่มีขนาดใหญ่ที่สุดในสกุล Scolopendra โดยปกติเมื่อโตเต็มที่จะยาว 26 เซนติเมตร แต่บางครั้งก็สามารถโตได้ถึง 30 เซนติเมตร ตะขาบชนิดนี้อาศัยอยู่ทางแถบเหนือและตะวันตกของทวีปอเมริกาใต้ และตามเกาะแก่งของประเทศตรินิแดดและจาไมกา เป็นสัตว์กินเนื้อ โดยกินจิ้งจก, กบ, นก, หนู และแม้แต่ค้างคาวเป็นอาหาร และขึ้นชื่อในเรื่องความดุร้าย', 'Skolpendru dzimta pieder pie simtkāju kārtas. Ap 400 dzimtas sugas sastopamas visā pasaulē, īpaši subtropu un tropu apgabalos. Mitinās augsnē, nobirušās lapās, plaisās, spraugās.'], 
    'context_section_description': [None, 'Scolopendra gigantea (còn được gọi là Rết chân vàng khổng lồ Peru và Rết khổng lồ Amazon) là đại diện lớn nhất của chi Scolopendra nói riêng và cả lớp rết nói chung, thường đạt độ dài 26\xa0cm (10\xa0in) và có thể vượt quá 30\xa0cm (12\xa0in). Sinh sống ở khu vực phía bắc và tây của Nam Mỹ và các đảo Trinidad, Puerto Rico, Saint Thomas, U.S. Virgin Islands, Jamaica, và Hispaniola.', None, ..., 'Scolopendra gigantea is een tijgerduizendpoot uit Zuid-Amerika. De soort jaagt onder andere op grote geleedpotigen, amfibieën, reptielen en kleine zoogdieren. Het is voor zover bekend de grootste niet uitgestorven duizendpoot ter wereld.', None, 'Skolpendru dzimta (Scolopendridae) pieder pie simtkāju kārtas. Ap 400 dzimtas sugas sastopamas visā pasaulē, īpaši subtropu un tropu apgabalos. Mitinās augsnē, nobirušās lapās, plaisās, spraugās.'],
    'hierarchical_section_title': ['Scolopendra gigantea', 'Scolopendra gigantea', 'Scolopendra gigantea', ..., 'Scolopendra gigantea', 'ตะขาบยักษ์ขาเหลืองเปรู', 'Skolopendru dzimta'],
    'is_main_image': [True, True, True, ..., True, True, True], 
    'page_title': ['Scolopendra gigantea', 'Scolopendra gigantea', 'Scolopendra gigantea', ..., 'Scolopendra gigantea', 'ตะขาบยักษ์ขาเหลืองเปรู', 'Skolopendru dzimta'], 
    'section_title': [None, None, None, ..., None, None, None]
  }
}

注意:该数据集以 Parquet 格式存储,以提高性能。此数据集是使用 此脚本 从原始文件生成的。此外,原始文件中的 120 个示例的以下一个或多个字段格式不正确: 原始高度 、 原始宽度 、 MIME 类型 和 标题归属描述 。在生成脚本中使用的修复后的这些示例可以在 这里 找到。

数据字段

  • 图像:包含将图像调整为 300 像素宽度并保持其宽高比的 PIL.Image.Image 对象。请注意,在访问图像列时: dataset[0]["image"] 图像文件会自动解码。解码大量图像文件可能需要相当长的时间。因此,在 "image" 列之前首先查询样本索引是非常重要的,即始终应首选 dataset[0]["image"] 而不是 dataset["image"][0] 。
  • 图像 URL :维基百科图片的 URL
  • 嵌入向量 :预处理的图像嵌入向量。每个图像都用从第二到最后一层的神经网络提取的 2048 维特征签名来描述,该神经网络使用了 ResNet-50 训练数据。这些嵌入向量以紧凑的形式包含了图像的内容和布局的丰富信息。
  • 元数据 URL :包含图像和元数据的维基多媒体页面的 URL
  • 原始高度 :图片调整大小前的原始高度
  • 原始宽度 :图片调整大小前的原始宽度
  • MIME 类型 :与图像相关联的 MIME 类型
  • 标题归属描述 :在图像的维基多媒体页面上找到的文本。此文本适用于维基百科上该图像的所有出现次数。
  • WIT 特性 :图像的标题序列,包含语言、页面 URL、页面信息、标题文本等信息。
    • 语言 :表示页面的维基百科语言的语言代码
    • 页面 URL :维基百科页面的 URL
    • 分配通过语言 ID :将 语言 字段与归属语言(以归属描述前缀中的语言书写)进行比较
    • 标题替代描述 :与图像关联的“alt”文本。虽然一般上看不到,但通常用于无障碍/屏幕阅读器
    • 标题参考描述 :直接显示在维基百科页面下方的标题
    • 页面上下文描述 :对页面范围的简要说明。它提供了对页面范围的简明解释
    • 页面段落描述 :图像所在段落的文本
    • 层级段落标题 :层级段落的标题
    • 是否为主要图像 :确定图像是否是页面上的第一个图像。在使用 Web 浏览器时通常显示在页面的右上部分
    • 页面最近是否更改 :[需要更多信息]
    • 页面标题 :维基百科页面的标题
    • 段落标题 :段落的标题

图:WIT 注释示例。

有关字段内容的详细信息可以在 paper, figure 5 and table 12. 中找到。

数据拆分

所有数据都保存在 训练 拆分中,总共有6477255个示例。

数据集创建

策划原因

来自 official blog post

WIT 数据集提供了关于维基百科图片关联文本的非常有价值的数据。

对于参与者成功开发有竞争力的模型,获取图像文件的易用性至关重要。

通过这个大规模的视觉数据发布,我们的目标是帮助参与者(以及有兴趣使用维基百科图片的研究人员和从业者)以紧凑的形式找到并下载与挑战相关的大量图像文件。

源数据

初始数据收集和规范化

来自 paper, section 3.1

我们从所有维基百科内容页面开始(即忽略其他页面,例如讨论、评论等)。这大约有279种语言的约124M个页面。

源语言制作者是谁?

文本来自维基百科。

注释

注释过程

WIT 是使用自动流程构建的数据集。但是它经过了人工验证。

来自 paper, section 3.7

为了进一步验证 WIT 数据集的质量,我们进行了一项研究,并使用(众包的)人工注释者进行了验证。如图3所示,我们要求评估者回答3个问题。给定一个图像和页面标题,评估者首先对前两个问题中的归属描述和参考描述的质量进行评估(顺序随机)。第三个问题是了解在页面描述和标题的情况下,这些文本描述与图像的上下文质量。每个回答都是根据一个3点量表来评价的:如果文本完美地描述了图像,则为“是”,如果它足够解释性,则为“可能”,如果它无关或图像不合适,则为“否”。

注释者是谁?

[需要更多信息]

个人和敏感信息

来自 official blog post

为了保护隐私,我们不公开人脸覆盖图像表面超过10%的人物为主题的图像。为确定人脸及其边界框,我们使用了 RetinaFace 检测器。此外,为了避免包含不适当的图像或侵犯版权约束的图像,我们从数据集中删除了所有在共享资源上有待删除的图像。

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

来自 paper, section 3.4

最后,我们发现某些图像文本对出现的频率非常高。这些通常是与主要文章页面无关的通用图像。常见的例子包括国旗、标志、地图、徽章等。为了避免数据偏差,我们对所有这些图像进行了大量的下采样。

其他已知限制

[需要更多信息]

其他信息

数据集策划者

Miriam Redi、Fabian Kaelin 和 Tiziano Piccardi 。

许可信息

CC BY-SA 4.0 international license

引文信息

@article{srinivasan2021wit,
  title={WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning},
  author={Srinivasan, Krishna and Raman, Karthik and Chen, Jiecao and Bendersky, Michael and Najork, Marc},
  journal={arXiv preprint arXiv:2103.01913},
  year={2021}
}

贡献者

感谢 @nateraw yjernite mariosasko 添加了这个数据集。