数据集:
biglam/brill_iconclass
计算机处理:
other-iconclass-metadata大小:
10K<n<100K语言创建人:
expert-generated批注创建人:
expert-generated许可:
cc0-1.0这是一个用机器学习应用于Iconclass分类系统描述的收藏品的测试数据集和挑战。
这个数据集包含87749个图像,其中包含 Iconclass 个为图像分配的元数据。 这个 iconclass 的元数据分类系统的目的是提供 'the comprehensive classification system for the content of images.' 。
Iconclass是在荷兰开发的一个标准分类,用于记录收藏品,目的是组装大型数据库,以便检索包含特定细节、主题或其他共同因素的图像。它是在20世纪70年代开发的,并且松散地基于杜威十进制系统,因为它是用于艺术图书馆目录的。 source
这种视角分为10个主要类别... Iconclass概念由一个字母数字类号("标记")和相应的内容定义("文本对应")组成。用户可以根据需要为对象打上尽可能多的概念标签。 source
这十个部分分别是:
在每个分部下面可以有进一步的细分(9或10个细分)。例如,在4 社会,文明,文化 下,可以找到:
详细清单请参见 https://iconclass.org/4 。
为了说明,我们可以看一些示例的Iconclass分类。
41A12 代表 城堡 。这个分类是通过从“基础”部门 4 开始建立的,具有以下属性:
Iconclass的部分构造使得通过机器学习来解决它特别有趣(也具有挑战性)。尽管可以将此数据集视为(多)标签图像分类问题,但这只是解决这个问题的一种方式。例如,在上面的标签城堡中,给予模型预测部分标签的'自由',可能会导致预测41A,即住宅。虽然这种对于“城堡”的预测是特定形式的住宅,但不太精确,就像人类编目员可能提供的那样。
如上所述,这个数据集可以通过多种方式解决:
这个列表并不详尽。
这个数据集没有自然语言。标签本身可以被视为一种语言形式,即标签可以被看作是构成“句子”的一系列标记。
这个数据集包含一个单独的配置。
数据集的一个示例实例如下:
{'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=390x500 at 0x7FC7FFBBD2D0>, 'label': ['31A235', '31A24(+1)', '61B(+54)', '61B:31A2212(+1)', '61B:31D14']}
数据集由以下组成
数据集没有提供任何预定义的训练、验证或测试拆分。
为了促进文化遗产领域中更好模型的创建,并推动使用Iconclass的工具和技术的研究,我们将这个数据集免费提供。我们所要求的只是对任何使用进行确认,并分享结果,以便我们都能从中受益。内容来自Arkyves数据库的样本。 source
[需要更多信息]
[需要更多信息]
这些图像是从 Arkyves database 中取样的。该收藏品包括来自许多国家的图书馆和博物馆的图像,包括阿姆斯特丹的国家博物馆、荷兰艺术史研究所(RKD)、Wolfenbüttel的赫尔佐格·奥古斯特图书馆,以及米兰、乌特勒支和格拉斯哥的大学图书馆等。 source
[需要更多信息]
谁是源语言生产者?[需要更多信息]
注释来自上述源数据集。大部分注释可能是由对Iconclass元数据模式有经验的工作人员创建的。
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
Iconclass作为一个元数据标准吸收了其创作时(1940年代荷兰)的偏见。特别是,“32B 人种,民族;国籍”受到了批评。“32B36 '原始','前现代'人种”就是一个我们可能不愿接受的类别的例子。总的来说,32B的细分中有一些成分反映了种族是一个科学范畴而不是社会构建的信念。
Iconclass社区正在积极探索这些限制;例如,参见 Revising Iconclass section 32B human races, peoples; nationalities 。
在任何生产环境中部署在这些数据上训练的模型之前,应该意识到Iconclass的这些限制。
[需要更多信息]
[需要更多信息]
Etienne Posthumus
@MISC{iconclass, title = {Brill Iconclass AI Test Set}, author={Etienne Posthumus}, year={2020} }
感谢 @davanstrien 添加了这个数据集。