数据集:

dalle-mini/YFCC100M_OpenAI_subset

预印本库:

arxiv:1503.01817
英文

YFCC100M subset from OpenAI

OpenAI使用的YFCC100M子集,经过过滤以仅包含我们能够检索到的图像。

Split train validation
Number of samples 14,808,859 16,374
Size 1.9 TB 2.1 GB

特征:

  • 从原始数据集中:标题,描述,照片ID,用户ID,用户昵称,拍摄日期,上传日期,拍摄设备,用户标签,机器标签,经度,纬度,准确性,页面URL,下载URL,许可证名称,许可证URL,服务器ID,农场ID,密钥
  • img:图像内容,可以使用PIL.Image.open(io.BytesIO(item['img']))加载
  • title_clean和description_clean:通过使用下面详细说明的clean_text函数从标题和描述中派生而来
def clean_text(text):
    # decode url
    text = urllib.parse.unquote_plus(text)
    # remove html tags
    text = re.sub('<[^<]+?>', '', text)
    # remove multiple spaces + "\r" + "\n" + "\t"
    text = " ".join(text.split())
    return text