全球知名的视觉内容提供商Getty Images近日宣布,在Hugging Face平台上发布了一个开放样本数据集,旨在成为AI训练领域可信赖的数据合作伙伴。该数据集包含来自其创意库的精选图像,旨在解决AI/ML模型训练过程中常见的数据质量和法律合规性问题。
据Getty Images介绍,该数据集包含3750张高质量图像,覆盖15个类别,如抽象与背景、建筑环境、商业、概念、教育、医疗、图标、工业、自然、插图和旅行等。这些图像均来自Getty Images的全资创意库,确保了其商业安全性和法律合规性,避免了开发者在后续使用中可能遇到的法律纠纷。
该数据集特别针对机器学习训练进行了优化,提供了高分辨率图像和丰富的结构化元数据,去除了不适宜的内容如成人内容、低分辨率图像和缺失元数据的图像。此举旨在减轻开发者在数据清洗和丰富化方面的负担,提高AI模型训练的效率和质量。
然而,使用此数据集仍需遵守一定的条件,包括禁止重新分发数据集、开发用于复制或生成数据集中内容的产品/服务、创建与Getty Images直接竞争的产品/服务,以及以任何违反法律法规的方式使用数据集。
Getty Images表示,此举旨在展示其能够为AI模型训练提供全面、高质量且合法合规的内容,并希望与开发者社区建立更紧密的联系,提高其在AI训练数据领域的知名度和影响力。未来,该公司还计划根据开发者的需求提供更大规模的授权数据仓库,并继续探索与创作者共享收益的新模式。
此次发布的数据集是Getty Images在AI领域布局的又一重要举措,旨在通过提供高质量的数据支持,推动AI技术的健康发展。