数据集:
dalle-mini/YFCC100M_OpenAI_subset
预印本库:
arxiv:1503.01817OpenAI使用的YFCC100M子集,经过过滤以仅包含我们能够检索到的图像。
Split | train | validation |
---|---|---|
Number of samples | 14,808,859 | 16,374 |
Size | 1.9 TB | 2.1 GB |
特征:
def clean_text(text): # decode url text = urllib.parse.unquote_plus(text) # remove html tags text = re.sub('<[^<]+?>', '', text) # remove multiple spaces + "\r" + "\n" + "\t" text = " ".join(text.split()) return text