数据集:

severo/embellishments

大小:

n<1K

批注创建人:

no-annotation

源数据集:

original

许可:

cc0-1.0
英文

severo/embellishments 数据集卡片

数据集概述

这个小的数据集包含了第一个 100 个条目的缩略图数据。它被上传到 Hub 上以重现 Daniel van Strien 的教程。

数据集结构

数据实例

一行数据包含了一个图像的缩略图、文件名以及提取该图像的书籍的出版年份。

一个示例如下:

{
 'fname': '000811462_05_000205_1_The Pictorial History of England being a history of the people as well as a hi_1855.jpg',
 'year': '1855',
 'path': 'embellishments/1855/000811462_05_000205_1_The Pictorial History of England being a history of the people as well as a hi_1855.jpg',
 'img': ...
}

数据字段

  • fname:图像的文件名。
  • year:一个包含提取图像的书籍的出版年份的字符串。
  • path:图像的本地路径。
  • img:一个最大高度和宽度为 224 像素的图像缩略图。

数据拆分

数据集只包含 100 行,属于单一的“训练”拆分。

数据集创建

策划理由

这个数据集是为了 Daniel van Strien 的教程而选择的,其中包括了用 Python 编写的代码。

数据来源

Initial Data Collection and Normalization

根据英国图书馆网页的说明:

这些图像是从 49,455 本数字化图书中以算法方式收集的,相当于 65,227 个卷(超过 2500 万页),出版年份在公元 1510 年至 1900 年之间。这些图书涵盖了广泛的主题领域,包括哲学、历史、诗歌和文学。图像以 .JPEG 格式保存,BCP-47 代码为 en 。

资料的创作者是谁?

英国图书馆、英国图书馆实验室、Adrian Edwards(馆长)、Neil Fitzgerald(贡献者 ORCID)

注释

这个数据集不包含任何额外的注释。

注释过程

[N/A]

注释者是谁?

[N/A]

个人和敏感信息

[N/A]

使用数据需考虑的因素

数据集的社会影响

[N/A]

偏见讨论

[N/A]

其他已知限制

这是一个玩具数据集,旨在:

其他信息

数据集维护者

该数据集由 Hugging Face 的 Sylvain Lesage 创建,以复制 Daniel van Strien 的教程。

许可信息

CC0 1.0 Universal 公共领域