数据集:
biglam/nls_chapbook_illustrations
该数据集包含苏格兰国家图书馆所持有的小册子插图的图像,并作为其数字化和发布的数据集。
“小册子从17世纪末到19世纪后期是日常阅读材料。它们通常印在一张纸上,然后折叠成8、12、16和24页的书籍,它们通常用粗糙的木版画插图装饰。它们的主题包括新闻、求爱、幽默、职业、童话、幻觉、战争、政治、犯罪、处决、历史人物、异装者[sic]和共济会,以及宗教和诗歌。据估计,大约三分之二的小册子包含歌曲和诗歌,通常以花环的标题下出现。”- Source
小册子经常插图,尤其是在封面上,以吸引客户,通常使用木刻印刷插图,或偶尔使用定型木刻或铸造金属装饰。除了艺术上的兴趣外,这些插图还可以提供历史证据,如文章的出版日期、地点或人物。
这个数据集包含了苏格兰国家图书馆数字研究学者Giles Bergel和Abhishek Dutta创建的一部分小册子的注释。他们在2020年获得苏格兰国家图书馆数字学者奖学金支持下,在牛津大学的 Visual Geometry Group 中创建了这些注释。这些注释提供了对一些小册子页面上印刷插图的边界框的标注,采用了一种手动注释和机器分类的结合方式,该方式在 this paper 中描述。
数据集还包括计算机推断出的插图小册子页面所属的“视觉分组”。这些分组是基于插图在小册子页面上的重复出现进行确定的,使用了 VGG Image Search Engine (VISE) software
在论文 Visual Analysis of Chapbooks Printed in Scotland 中报告的目标检测任务的性能如下:
IOU threshold | Precision | Recall |
---|---|---|
0.50 | 0.993 | 0.911 |
0.75 | 0.987 | 0.905 |
0.95 | 0.973 | 0.892 |
在论文 Visual Analysis of Chapbooks Printed in Scotland 中报告的图像分类任务的性能如下:
原始数据集中的图像数:47329检测到至少含有一个插图的图像数:3629
请注意,这些数字不代表包含多个检测的图像。
请参阅 paper 中的示例,其中显示了误报检测。
“图像匹配”任务的性能正在评估中。
图像附带的文字为英语、苏格兰语或苏格兰盖尔语。
插图检测拆分的示例实例:
{'image_id': 4, 'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=600x1080>, 'width': 600, 'height': 1080, 'objects': [{'category_id': 0, 'image_id': '4', 'id': 1, 'area': 110901, 'bbox': [34.529998779296875, 556.8300170898438, 401.44000244140625, 276.260009765625], 'segmentation': [[34.529998779296875, 556.8300170898438, 435.9700012207031, 556.8300170898438, 435.9700012207031, 833.0900268554688, 34.529998779296875, 833.0900268554688]], 'iscrowd': False}]}
图像分类拆分的示例实例:
{'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=600x1080>, 'label': 1}
图像匹配拆分的示例实例:
{'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=600x1080>, 'group-label': 231}
插图检测配置的字段:
图像分类配置的字段:
图像匹配配置的字段:
对于所有配置,只有一个train拆分。在描述此数据集的 paper 中使用了K倍交叉验证,因此没有定义现有的拆分。
创建数据集是为了便于研究苏格兰小册子插图和出版物。检测到的插图可以通过出版元数据进行浏览:结合使用 VGG Image Search Engine (VISE) software ,这使得研究人员能够识别匹配的图像,并从部分证据推断出小册子的来源。浏览和搜索功能在该 public demo 文档的 here 中可用。
初始数据来自于 National Library of Scotland's Chapbooks Printed in Scotland dataset 没有进行规范化处理,只使用了图像和部分元数据。未使用OCR文本。
谁是源语言的制作人?初始数据集是由苏格兰国家图书馆根据NLS Data Foundry 的扫描和内部策展目录描述创建的,由Sarah Ames博士指导。
该数据子集由Giles Bergel博士和Abhishek Dutta博士使用一种手动注释和机器分类的组合方式创建,如下所述。
注释最初在47329张图像中的337张图像的子集上执行,使用 VGG List Annotator (LISA 软件。检测到的插图在LISA中显示为注释,经过多次审核和完善(有关详细信息,请参阅 this paper )。初始检测是使用 EfficientDet 对象检测器执行的,该对象检测器经过 COCO 的训练,并在 this paper 中描述了其注释。
谁是注释者?Abhishek Dutta为重新训练EfficentDet模型创建了最初的337个注释。Giles Bergel对检测结果进行了审核,并在某些情况下进行了修改。
没有
我们认为这个数据集将有助于插图检测器的训练和基准测试。希望通过自动化原本需要手动注释的任务,节省研究人员在准备机器和人工分析数据方面的时间和劳动力。所讨论的数据集基于一种反映大众学习、品味和文化能力的廉价流行文学类别,我们希望其使用、再使用和改编能够凸显廉价小册子在苏格兰和英国城市和乡村地区在这一时期传播文学、知识和娱乐的重要性。
虽然原始的Chapbooks Printed in Scotland是最大的数字化小册子收藏,但尚不清楚它是否完全代表了苏格兰所有印刷的小册子,或者普通廉价印刷文学的整体情况。已知原始收藏中有一小部分小册子(不到0.1%)并非在苏格兰印刷,但这不会对收藏品作为整体的代表性产生重大影响。
将插图与装饰物或其他非文本印刷特征区分开的定义在一定程度上是主观的:边缘情况通过与整个小册子流派最具特色的特征进行符合性评估,这些特征涉及内容、风格或页面上的放置方式。
由于对小册子的定义在领域专家中没有共识,原始数据集的构成是基于那些组装和策展原始收藏的人的判断。
在这个数据集中,与其他印刷品相比,插图的重复使用度非常高。插图在页面上的位置以及小册子的尺寸和格式也是小册子格式的特点。现正在评估这些注释是否可以推广到其他印刷作品:初步结果对于由文字环绕的其他凸版印刷插图已经取得了有希望的结果。
根据 original data ,该数据集属于公共领域。
@inproceedings{10.1145/3476887.3476893, author = {Dutta, Abhishek and Bergel, Giles and Zisserman, Andrew}, title = {Visual Analysis of Chapbooks Printed in Scotland}, year = {2021}, isbn = {9781450386906}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, url = {https://doi.org/10.1145/3476887.3476893}, doi = {10.1145/3476887.3476893}, abstract = {Chapbooks were short, cheap printed booklets produced in large quantities in Scotland, England, Ireland, North America and much of Europe between roughly the seventeenth and nineteenth centuries. A form of popular literature containing songs, stories, poems, games, riddles, religious writings and other content designed to appeal to a wide readership, they were frequently illustrated, particularly on their title-pages. This paper describes the visual analysis of such chapbook illustrations. We automatically extract all the illustrations contained in the National Library of Scotland Chapbooks Printed in Scotland dataset, and create a visual search engine to search this dataset using full or part-illustrations as queries. We also cluster these illustrations based on their visual content, and provide keyword-based search of the metadata associated with each publication. The visual search; clustering of illustrations based on visual content; and metadata search features enable researchers to forensically analyse the chapbooks dataset and to discover unnoticed relationships between its elements. We release all annotations and software tools described in this paper to enable reproduction of the results presented and to allow extension of the methodology described to datasets of a similar nature.}, booktitle = {The 6th International Workshop on Historical Document Imaging and Processing}, pages = {67–72}, numpages = {6}, keywords = {illustration detection, chapbooks, image search, visual grouping, printing, digital scholarship, illustration dataset}, location = {Lausanne, Switzerland}, series = {HIP '21} }
感谢 @davanstrien 和 Giles Bergel 添加了这个数据集。