数据集:

biglam/nls_chapbook_illustrations

英文

苏格兰国家图书馆小册子插图数据集卡片

数据集概要

该数据集包含苏格兰国家图书馆所持有的小册子插图的图像,并作为其数字化和发布的数据集。

“小册子从17世纪末到19世纪后期是日常阅读材料。它们通常印在一张纸上,然后折叠成8、12、16和24页的书籍,它们通常用粗糙的木版画插图装饰。它们的主题包括新闻、求爱、幽默、职业、童话、幻觉、战争、政治、犯罪、处决、历史人物、异装者[sic]和共济会,以及宗教和诗歌。据估计,大约三分之二的小册子包含歌曲和诗歌,通常以花环的标题下出现。”- Source

小册子经常插图,尤其是在封面上,以吸引客户,通常使用木刻印刷插图,或偶尔使用定型木刻或铸造金属装饰。除了艺术上的兴趣外,这些插图还可以提供历史证据,如文章的出版日期、地点或人物。

这个数据集包含了苏格兰国家图书馆数字研究学者Giles Bergel和Abhishek Dutta创建的一部分小册子的注释。他们在2020年获得苏格兰国家图书馆数字学者奖学金支持下,在牛津大学的 Visual Geometry Group 中创建了这些注释。这些注释提供了对一些小册子页面上印刷插图的边界框的标注,采用了一种手动注释和机器分类的结合方式,该方式在 this paper 中描述。

数据集还包括计算机推断出的插图小册子页面所属的“视觉分组”。这些分组是基于插图在小册子页面上的重复出现进行确定的,使用了 VGG Image Search Engine (VISE) software

支持的任务和排行榜

  • 目标检测:数据集包含小册子中图像的边界框
  • 图像分类:数据集的一种配置提供一个分类标签,指示页面是否包含插图。
  • 图像匹配:数据集的一种配置包含按照具有视觉相似内容的插图的集群或“视觉分组”对注释进行了排序,这是通过使用 VGG Image Search Engine (VISE) software 确定的。

在论文 Visual Analysis of Chapbooks Printed in Scotland 中报告的目标检测任务的性能如下:

IOU threshold Precision Recall
0.50 0.993 0.911
0.75 0.987 0.905
0.95 0.973 0.892

在论文 Visual Analysis of Chapbooks Printed in Scotland 中报告的图像分类任务的性能如下:

原始数据集中的图像数:47329检测到至少含有一个插图的图像数:3629

请注意,这些数字不代表包含多个检测的图像。

请参阅 paper 中的示例,其中显示了误报检测。

“图像匹配”任务的性能正在评估中。

语言

图像附带的文字为英语、苏格兰语或苏格兰盖尔语。

数据集结构

数据实例

插图检测拆分的示例实例:

{'image_id': 4,
 'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=600x1080>,
 'width': 600,
 'height': 1080,
 'objects': [{'category_id': 0,
   'image_id': '4',
   'id': 1,
   'area': 110901,
   'bbox': [34.529998779296875,
    556.8300170898438,
    401.44000244140625,
    276.260009765625],
   'segmentation': [[34.529998779296875,
     556.8300170898438,
     435.9700012207031,
     556.8300170898438,
     435.9700012207031,
     833.0900268554688,
     34.529998779296875,
     833.0900268554688]],
   'iscrowd': False}]}

图像分类拆分的示例实例:

{'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=600x1080>,
 'label': 1}

图像匹配拆分的示例实例:

{'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=600x1080>,
 'group-label': 231}

数据字段

插图检测配置的字段:

  • image_id:图像的ID
  • height:图像的高度
  • width:图像的宽度
  • image:小册子页面的图像
  • objects:以COCO格式的注释,包含一个包含以下键的字典列表:
    • bbox:图像的边界框
    • category_id:图像的标签
    • image_id:图像的ID
    • iscrowd:COCO是一个群体标志
    • segmentation:COCO分割注释(此案例为空,但保留了与其他处理脚本的兼容性)

图像分类配置的字段:

  • image:图像
  • label:一个标签,指示页面是否包含插图

图像匹配配置的字段:

  • image:小册子页面的图像
  • label:图像的ID,即相同的图像将共享相同的ID。

数据拆分

对于所有配置,只有一个train拆分。在描述此数据集的 paper 中使用了K倍交叉验证,因此没有定义现有的拆分。

数据集创建

策划理由

创建数据集是为了便于研究苏格兰小册子插图和出版物。检测到的插图可以通过出版元数据进行浏览:结合使用 VGG Image Search Engine (VISE) software ,这使得研究人员能够识别匹配的图像,并从部分证据推断出小册子的来源。浏览和搜索功能在该 public demo 文档的 here 中可用。

数据源

初始数据收集和规范化

初始数据来自于 National Library of Scotland's Chapbooks Printed in Scotland dataset 没有进行规范化处理,只使用了图像和部分元数据。未使用OCR文本。

谁是源语言的制作人?

初始数据集是由苏格兰国家图书馆根据NLS Data Foundry 的扫描和内部策展目录描述创建的,由Sarah Ames博士指导。

该数据子集由Giles Bergel博士和Abhishek Dutta博士使用一种手动注释和机器分类的组合方式创建,如下所述。

注释

注释过程

注释最初在47329张图像中的337张图像的子集上执行,使用 VGG List Annotator (LISA 软件。检测到的插图在LISA中显示为注释,经过多次审核和完善(有关详细信息,请参阅 this paper )。初始检测是使用 EfficientDet 对象检测器执行的,该对象检测器经过 COCO 的训练,并在 this paper 中描述了其注释。

谁是注释者?

Abhishek Dutta为重新训练EfficentDet模型创建了最初的337个注释。Giles Bergel对检测结果进行了审核,并在某些情况下进行了修改。

个人和敏感信息

没有

使用数据时需考虑的问题

数据的社会影响

我们认为这个数据集将有助于插图检测器的训练和基准测试。希望通过自动化原本需要手动注释的任务,节省研究人员在准备机器和人工分析数据方面的时间和劳动力。所讨论的数据集基于一种反映大众学习、品味和文化能力的廉价流行文学类别,我们希望其使用、再使用和改编能够凸显廉价小册子在苏格兰和英国城市和乡村地区在这一时期传播文学、知识和娱乐的重要性。

偏见讨论

虽然原始的Chapbooks Printed in Scotland是最大的数字化小册子收藏,但尚不清楚它是否完全代表了苏格兰所有印刷的小册子,或者普通廉价印刷文学的整体情况。已知原始收藏中有一小部分小册子(不到0.1%)并非在苏格兰印刷,但这不会对收藏品作为整体的代表性产生重大影响。

将插图与装饰物或其他非文本印刷特征区分开的定义在一定程度上是主观的:边缘情况通过与整个小册子流派最具特色的特征进行符合性评估,这些特征涉及内容、风格或页面上的放置方式。

由于对小册子的定义在领域专家中没有共识,原始数据集的构成是基于那些组装和策展原始收藏的人的判断。

其他已知限制

在这个数据集中,与其他印刷品相比,插图的重复使用度非常高。插图在页面上的位置以及小册子的尺寸和格式也是小册子格式的特点。现正在评估这些注释是否可以推广到其他印刷作品:初步结果对于由文字环绕的其他凸版印刷插图已经取得了有希望的结果。

附加信息

数据集策划者

  • Giles Bergel
  • Abhishek Dutta

许可信息

根据 original data ,该数据集属于公共领域。

引用信息

@inproceedings{10.1145/3476887.3476893,
author = {Dutta, Abhishek and Bergel, Giles and Zisserman, Andrew},
title = {Visual Analysis of Chapbooks Printed in Scotland},
year = {2021},
isbn = {9781450386906},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
url = {https://doi.org/10.1145/3476887.3476893},
doi = {10.1145/3476887.3476893},
abstract = {Chapbooks were short, cheap printed booklets produced in large quantities in Scotland, England, Ireland, North America and much of Europe between roughly the seventeenth and nineteenth centuries. A form of popular literature containing songs, stories, poems, games, riddles, religious writings and other content designed to appeal to a wide readership, they were frequently illustrated, particularly on their title-pages. This paper describes the visual analysis of such chapbook illustrations. We automatically extract all the illustrations contained in the National Library of Scotland Chapbooks Printed in Scotland dataset, and create a visual search engine to search this dataset using full or part-illustrations as queries. We also cluster these illustrations based on their visual content, and provide keyword-based search of the metadata associated with each publication. The visual search; clustering of illustrations based on visual content; and metadata search features enable researchers to forensically analyse the chapbooks dataset and to discover unnoticed relationships between its elements. We release all annotations and software tools described in this paper to enable reproduction of the results presented and to allow extension of the methodology described to datasets of a similar nature.},
booktitle = {The 6th International Workshop on Historical Document Imaging and Processing},
pages = {67–72},
numpages = {6},
keywords = {illustration detection, chapbooks, image search, visual grouping, printing, digital scholarship, illustration dataset},
location = {Lausanne, Switzerland},
series = {HIP '21}
}

贡献

感谢 @davanstrien 和 Giles Bergel 添加了这个数据集。