Getty Images发布高质量图像数据集，助力AI训练

2024年09月09日由 daydream 发表 307 0

全球知名的视觉内容提供商Getty Images近日宣布，在Hugging Face平台上发布了一个开放样本数据集，旨在成为AI训练领域可信赖的数据合作伙伴。该数据集包含来自其创意库的精选图像，旨在解决AI/ML模型训练过程中常见的数据质量和法律合规性问题。

微信截图_20240909114021

据Getty Images介绍，该数据集包含3750张高质量图像，覆盖15个类别，如抽象与背景、建筑环境、商业、概念、教育、医疗、图标、工业、自然、插图和旅行等。这些图像均来自Getty Images的全资创意库，确保了其商业安全性和法律合规性，避免了开发者在后续使用中可能遇到的法律纠纷。

该数据集特别针对机器学习训练进行了优化，提供了高分辨率图像和丰富的结构化元数据，去除了不适宜的内容如成人内容、低分辨率图像和缺失元数据的图像。此举旨在减轻开发者在数据清洗和丰富化方面的负担，提高AI模型训练的效率和质量。

然而，使用此数据集仍需遵守一定的条件，包括禁止重新分发数据集、开发用于复制或生成数据集中内容的产品/服务、创建与Getty Images直接竞争的产品/服务，以及以任何违反法律法规的方式使用数据集。

Getty Images表示，此举旨在展示其能够为AI模型训练提供全面、高质量且合法合规的内容，并希望与开发者社区建立更紧密的联系，提高其在AI训练数据领域的知名度和影响力。未来，该公司还计划根据开发者的需求提供更大规模的授权数据仓库，并继续探索与创作者共享收益的新模式。

此次发布的数据集是Getty Images在AI领域布局的又一重要举措，旨在通过提供高质量的数据支持，推动AI技术的健康发展。

文章来源：https://venturebeat.com/data-infrastructure/getty-images-drops-cleanest-visual-dataset-for-training-foundation-models/

标签：

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇生成式人工智能导致碳排放量增加三倍

下一篇 Fastn使用AI代理来促进复杂应用程序开发中的数据集成

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市