数据集:
sbu_captions
任务:
图生文子任务:
image-captioning语言:
en计算机处理:
monolingual大小:
1M<n<10M语言创建人:
found批注创建人:
found源数据集:
original许可:
license:unknownSBU说明照片数据集是从Flickr中收集的相关图片和标题的集合。
默认情况下,该数据集不会将图片下载到本地。相反,它会提供图片的URL。要获取图片,请使用以下代码:
from concurrent.futures import ThreadPoolExecutor from functools import partial import io import urllib import PIL.Image from datasets import load_dataset from datasets.utils.file_utils import get_datasets_user_agent USER_AGENT = get_datasets_user_agent() def fetch_single_image(image_url, timeout=None, retries=0): for _ in range(retries + 1): try: request = urllib.request.Request( image_url, data=None, headers={"user-agent": USER_AGENT}, ) with urllib.request.urlopen(request, timeout=timeout) as req: image = PIL.Image.open(io.BytesIO(req.read())) break except Exception: image = None return image def fetch_images(batch, num_threads, timeout=None, retries=0): fetch_single_image_with_args = partial(fetch_single_image, timeout=timeout, retries=retries) with ThreadPoolExecutor(max_workers=num_threads) as executor: batch["image"] = list(executor.map(fetch_single_image_with_args, batch["image_url"])) return batch num_threads = 20 dset = load_dataset("sbu_captions") dset = dset.map(fetch_images, batched=True, batch_size=100, fn_kwargs={"num_threads": num_threads})
所有标题都是英文的。
SBU说明照片数据集中的每个实例代表一张图片,包括一个标题和一个用户ID:
{ 'img_url': 'http://static.flickr.com/2723/4385058960_b0f291553e.jpg', 'user_id': '47889917@N08', 'caption': 'A wooden chair in the living room' }
所有数据都包含在训练集中。训练集有100万个实例。
来自论文的描述:
我们的一项贡献是我们的自动收集这个新数据集的技术 - 执行大量的Flickr查询,然后将嘈杂的结果过滤为100万张带有相关视觉描述的图片。这样的收集使我们能够使用相对简单的非参数方法来应对极具挑战性的描述生成问题,并产生出乎意料的有效结果。
源图像来自Flickr。
初始数据收集和规范化我们论文的一个关键贡献是具有相关描述性文本的新颖网规模的相片数据库。为了能够有效地为新颖图片进行字幕生成,这个数据库必须在两个方面具有良好表现:1)它必须足够大,以便与查询的图片匹配相对相似,2)与数据库相片相关联的标题必须在视觉上相关,以便在图片之间转移标题是有用的。为了实现第一个要求,我们使用大量的查询词对(对象,属性,动作,物品和场景)查询Flickr。这产生了一个非常庞大但嘈杂的初始照片集和关联文本集。
谁是源语言的生产者?Flickr用户。
与图像关联的文本描述以注释/标题的形式存在。
谁是注释者?Flickr用户。
Vicente Ordonez,Girish Kulkarni和Tamara L. Berg。
未指定。
@inproceedings{NIPS2011_5dd9db5e, author = {Ordonez, Vicente and Kulkarni, Girish and Berg, Tamara}, booktitle = {Advances in Neural Information Processing Systems}, editor = {J. Shawe-Taylor and R. Zemel and P. Bartlett and F. Pereira and K.Q. Weinberger}, pages = {}, publisher = {Curran Associates, Inc.}, title = {Im2Text: Describing Images Using 1 Million Captioned Photographs}, url = {https://proceedings.neurips.cc/paper/2011/file/5dd9db5e033da9c6fb5ba83c7a7ebea9-Paper.pdf}, volume = {24}, year = {2011} }
感谢 @thomasw21 添加了该数据集