数据集:

severo/embellishments

大小:

n<1K

批注创建人:

no-annotation

源数据集:

original

许可:

cc0-1.0

数据集介绍文件清单

英文

severo/embellishments 数据集卡片

数据集概述

这个小的数据集包含了第一个 100 个条目的缩略图数据。它被上传到 Hub 上以重现 Daniel van Strien 的教程。

数据集结构

数据实例

一行数据包含了一个图像的缩略图、文件名以及提取该图像的书籍的出版年份。

一个示例如下：

{
 'fname': '000811462_05_000205_1_The Pictorial History of England being a history of the people as well as a hi_1855.jpg',
 'year': '1855',
 'path': 'embellishments/1855/000811462_05_000205_1_The Pictorial History of England being a history of the people as well as a hi_1855.jpg',
 'img': ...
}

数据字段

fname：图像的文件名。
year：一个包含提取图像的书籍的出版年份的字符串。
path：图像的本地路径。
img：一个最大高度和宽度为 224 像素的图像缩略图。

数据拆分

数据集只包含 100 行，属于单一的“训练”拆分。

数据集创建

策划理由

这个数据集是为了 Daniel van Strien 的教程而选择的，其中包括了用 Python 编写的代码。

数据来源

Initial Data Collection and Normalization

根据英国图书馆网页的说明：

这些图像是从 49,455 本数字化图书中以算法方式收集的，相当于 65,227 个卷（超过 2500 万页），出版年份在公元 1510 年至 1900 年之间。这些图书涵盖了广泛的主题领域，包括哲学、历史、诗歌和文学。图像以 .JPEG 格式保存，BCP-47 代码为 en 。

资料的创作者是谁？

英国图书馆、英国图书馆实验室、Adrian Edwards（馆长）、Neil Fitzgerald（贡献者 ORCID）

注释

这个数据集不包含任何额外的注释。

注释过程

[N/A]

注释者是谁？

[N/A]

个人和敏感信息

[N/A]

使用数据需考虑的因素

数据集的社会影响

[N/A]

偏见讨论

[N/A]

其他已知限制

这是一个玩具数据集，旨在：

验证 Daniel van Strien 在教程 Using ? datasets for image search 中描述的过程，
在一个图像数据集上展示 dataset viewer 。

其他信息

数据集维护者

该数据集由 Hugging Face 的 Sylvain Lesage 创建，以复制 Daniel van Strien 的教程。

许可信息

CC0 1.0 Universal 公共领域

作者:

severo

数据集大小:

638.46 KB