数据集:
kakaobrain/coyo-700m
子任务:
image-captioning语言:
en计算机处理:
monolingual大小:
100M<n<1B语言创建人:
other批注创建人:
no-annotation源数据集:
original许可:
cc-by-4.0COYO-700M 是一个大规模的数据集,包含了 75亿组图像-文本对,以及许多其他元属性,增加了训练各种模型的可用性。我们的数据集遵循与之前的视觉和语言数据集类似的策略,收集了许多HTML文档中信息丰富的图像替代文本及其关联图像的组合。我们期望COYO用于训练常见的大规模基础模型,并与其他类似的数据集相辅相成。有关数据获取过程的详细信息,请参阅稍后发布的技术论文。
我们通过重新实现流行的模型(如 ALIGN 、 unCLIP 和 ViT )对COYO数据集的质量进行了实证验证。我们从头开始训练这些模型,使用COYO-700M或其子集,取得了与原始论文中报告的数字或生成的样本相竞争的性能。我们的预训练模型和训练代码将很快发布,同时附带技术论文。
COYO-700M 数据集中的文本为英文。
COYO-700M 中的每个实例代表一个图像-文本对的信息,带有元属性:
{ 'id': 841814333321, 'url': 'https://blog.dogsof.com/wp-content/uploads/2021/03/Image-from-iOS-5-e1614711641382.jpg', 'text': 'A Pomsky dog sitting and smiling in field of orange flowers', 'width': 1000, 'height': 988, 'image_phash': 'c9b6a7d8469c1959', 'text_length': 59, 'word_count': 11, 'num_tokens_bert': 13, 'num_tokens_gpt': 12, 'num_faces': 0, 'clip_similarity_vitb32': 0.4296875, 'clip_similarity_vitl14': 0.35205078125, 'nsfw_score_opennsfw2': 0.00031447410583496094, 'nsfw_score_gantman': 0.03298913687467575, 'watermark_score': 0.1014641746878624, 'aesthetic_score_laion_v2': 5.435476303100586 }
name | type | description |
---|---|---|
id | long | Unique 64-bit integer ID generated by 1235321 |
url | string | The image URL extracted from the src attribute of the <img> tag |
text | string | The text extracted from the alt attribute of the <img> tag |
width | integer | The width of the image |
height | integer | The height of the image |
image_phash | string | The 1236321 of the image |
text_length | integer | The length of the text |
word_count | integer | The number of words separated by spaces. |
num_tokens_bert | integer | The number of tokens using 1237321 |
num_tokens_gpt | integer | The number of tokens using 1238321 |
num_faces | integer | The number of faces in the image detected by 1239321 |
clip_similarity_vitb32 | float | The cosine similarity between text and image(ViT-B/32) embeddings by 12310321 |
clip_similarity_vitl14 | float | The cosine similarity between text and image(ViT-L/14) embeddings by 12310321 |
nsfw_score_opennsfw2 | float | The NSFW score of the image by 12312321 |
nsfw_score_gantman | float | The NSFW score of the image by 12313321 |
watermark_score | float | The watermark probability of the image by our internal model |
aesthetic_score_laion_v2 | float | The aesthetic score of the image by 12314321 |
数据没有被划分,因为评估预计将在更常用的下游任务上进行。
类似于大多数视觉和语言数据集,我们在数据创建过程中的主要目标是收集许多图像替代文本和来自网络的HTML文档中的图像来源对。因此,我们试图以最小的成本消除无信息的图像或文本,并通过添加各种元属性来提高数据集的可用性。用户可以使用这些元属性从COYO-700M中抽样子集,并用于训练所需的模型。例如,num_faces属性可以用来创建一个像COYO-Faces这样的子集,并开发一个保护隐私的生成模型。
我们从2020年10月到2021年8月的时间段内,通过分析Common Crawl数据,采集了约100亿组图像替代文本和图像来源对。然后,通过图像和/或文本级别的过滤过程以最小的成本消除了无信息的组合。
图像级别
文本级别
图像-文本级别
Common Crawl 是 COYO-700M 的数据来源。
该数据集是通过全自动化过程构建的,无需人工注释。
注释者是谁?没有人工注释。
COYO 数据集建议仅用于研究目的。Kakao Brain 在构建 COYO 数据集时尽力构建了一个“安全”的数据集(请参阅数据过滤部分)。 Kakao Brain 不断努力创建更多“安全”的数据集。然而,尽管这些努力,由于数据集非常庞大(超过70亿条数据),因此没有通过人工筛选,以避免由于其非筛选的性质而产生风险。请注意,数据集的非筛选性质意味着收集的图像可能会引起人类强烈的不适和恐怖感。COYO 数据集可能包含一些不适当的数据,由此产生的任何问题完全由使用该数据集的用户承担责任。因此,强烈建议仅将此数据集用于研究目的,并在使用数据集时牢记这一点。Kakao Brain 不建议未经特殊处理以清除不适宜的数据而使用该数据集创建商业产品。
这将在不久后发布的论文中进行描述。
这将在不久后发布的论文中进行描述。
这将在不久后发布的论文中进行描述。
COYO 数据集以开源形式发布,希望能够对许多研究机构和初创公司进行研究提供帮助。我们期待与希望与我们合作的各个地方进行联系。
coyo@kakaobrain.com
Kakao Brain 的 COYO 数据集在 CC-BY-4.0 License 许可下。完整的许可证可以在 LICENSE.cc-by-4.0 文件中找到。数据集包括通过分析开源数据爬取项目Common Crawl数据从各个网站收集的“图像URL”和“文本”。所收集的数据(图像和文本)受到每个内容所属的许可证的约束。
使用义务尽管开源可能是免费使用的,但并不意味着没有义务。为了确定您对 COYO 数据集的拟使用是否适合 CC-BY-4.0 许可证,请考虑许可证指南。如果您违反许可证,可能会面临法律行动,例如使用禁止或索赔赔偿等。
如果您将此数据集应用于任何项目和研究,请引用我们的代码:
@misc{kakaobrain2022coyo-700m, title = {COYO-700M: Image-Text Pair Dataset}, author = {Minwoo Byeon, Beomhee Park, Haecheon Kim, Sungjun Lee, Woonhyuk Baek, Saehoon Kim}, year = {2022}, howpublished = {\url{https://github.com/kakaobrain/coyo-dataset}}, }