数据集:
blbooksgenre
该数据集包含与书籍相关的元数据,共 digitised by the British Library in partnership with Microsoft 本。其中一部分元数据来自于英国图书馆目录的导出,而另一部分是作为众包项目的一部分生成的。该书的文本和其他元数据可以在 date.bl 网站上找到。
该收藏中的大部分书籍是18世纪和19世纪出版的,但也包括少量早期时期的书籍。该收藏中的项目涵盖了广泛的主题,包括地理学、哲学、历史、诗歌和文学,并以多种语言出版。
对于包含额外众包注释的数据子集,出版日期的分布如下:
Date of publication | |
---|---|
1630 | 8 |
1690 | 4 |
1760 | 10 |
1770 | 5 |
1780 | 5 |
1790 | 18 |
1800 | 45 |
1810 | 96 |
1820 | 152 |
1830 | 182 |
1840 | 259 |
1850 | 400 |
1860 | 377 |
1870 | 548 |
1880 | 776 |
1890 | 1484 |
1900 | 17 |
1910 | 1 |
1970 | 1 |
[需要更多信息]
描述此数据集的数字化图书馆藏书已被用于各种数字历史和人文科学项目中。
此数据集适用于各种无监督任务,以及“流派分类任务”。
监督任务该数据集的主要用途是开发和评估“流派分类”模型。数据集包括人工生成的标签,用于判断一本书是否为“小说”或“非小说”。这已用于训练流派分类模型,根据书名预测一本书是否为“小说”或“非小说”。
[需要更多信息]
数据集目前有三个配置,旨在支持该数据集可用于的一系列任务:
title_genre_classification配置的示例数据实例:
{'BL record ID': '014603046', 'title': 'The Canadian farmer. A missionary incident [Signed: W. J. H. Y, i.e. William J. H. Yates.]', 'label': 0}
annotated_raw配置的示例数据实例:
{'BL record ID': '014603046', 'Name': 'Yates, William Joseph H.', 'Dates associated with name': '', 'Type of name': 'person', 'Role': '', 'All names': ['Yates, William Joseph H. [person] ', ' Y, W. J. H. [person]'], 'Title': 'The Canadian farmer. A missionary incident [Signed: W. J. H. Y, i.e. William J. H. Yates.]', 'Variant titles': '', 'Series title': '', 'Number within series': '', 'Country of publication': ['England'], 'Place of publication': ['London'], 'Publisher': '', 'Date of publication': '1879', 'Edition': '', 'Physical description': 'pages not numbered, 21 cm', 'Dewey classification': '', 'BL shelfmark': 'Digital Store 11601.f.36. (1.)', 'Topics': '', 'Genre': '', 'Languages': ['English'], 'Notes': 'In verse', 'BL record ID for physical resource': '004079262', 'classification_id': '267476823.0', 'user_id': '15.0', 'subject_ids': '44369003.0', 'annotator_date_pub': '1879', 'annotator_normalised_date_pub': '1879', 'annotator_edition_statement': 'NONE', 'annotator_FAST_genre_terms': '655 7 ‡aPoetry‡2fast‡0(OCoLC)fst01423828', 'annotator_FAST_subject_terms': '60007 ‡aAlice,‡cGrand Duchess, consort of Ludwig IV, Grand Duke of Hesse-Darmstadt,‡d1843-1878‡2fast‡0(OCoLC)fst00093827', 'annotator_comments': '', 'annotator_main_language': '', 'annotator_other_languages_summaries': 'No', 'annotator_summaries_language': '', 'annotator_translation': 'No', 'annotator_original_language': '', 'annotator_publisher': 'NONE', 'annotator_place_pub': 'London', 'annotator_country': 'enk', 'annotator_title': 'The Canadian farmer. A missionary incident [Signed: W. J. H. Y, i.e. William J. H. Yates.]', 'Link to digitised book': 'http://access.bl.uk/item/viewer/ark:/81055/vdc_00000002842E', 'annotated': True, 'Type of resource': 0, 'created_at': datetime.datetime(2020, 8, 11, 14, 30, 33), 'annotator_genre': 0}
数据字段在不同配置之间略有不同。annotated_raw配置的所有可能字段如下所示。对于数据集的原始版本,数据类型通常为字符串,以避免处理缺失值时出现错误。
以下字段均通过众包任务生成(在下面的详细讨论中讨论):
最后,title_genre_classification配置的标签字段是一个带有值0(小说)或1(非小说)的类标签。
[需要更多信息]
此数据集只包含一个拆分:train。
注意:此部分正在进行中。
这个收藏中的书籍是作为英国图书馆和微软之间的项目合作的一部分进行数字化的。 Mass digitisation ,即在快速数字化大量材料的目标下,项目选择了包括哪些材料,这在某种程度上影响了材料的组成方式。决定是否将物品包括在数字化中通常涉及以下考虑因素(但不限于此):
这些标准可能对收藏的构成产生连锁反应。例如,系统地排除大型书籍可能导致某些类型的书籍内容不会被数字化。大册子往往与内容至少在某种程度上相关,因此将它们排除在数字化之外将意味着该材料的表示不足。同样,版权状态通常(但不仅仅)由出版日期确定。这通常会导致在某个截止日期后,收藏中的物品数量迅速下降。
以上所有内容主要是为了明确指出,这个收藏并不旨在创建英国图书馆持有的代表性样本。某些材料将被过度代表,其他材料则会被低估。同样,不应将收藏品视为代表该数据集所涵盖的时间段内出版物的代表性样本(也不要认为各个时间段的数据相对比例代表了该时期出版物的比例样本)。
[需要更多信息]
原始源数据(实体物品)包括由 British Library 持有的各种资源(主要是单行本)。英国图书馆是一个 Legal Deposit 图书馆。"法定存档要求出版商向英国图书馆提供他们在英国出版的每一部作品的副本。这项法律自1662年以来一直存在于英国法律中。" source 。
[需要更多信息]
初始数据收集和规范化该数据集的这个版本是部分来自英国图书馆目录记录的数据导出,部分是通过涉及英国图书馆工作人员的众包任务生成的数据。
资源语言生产者是谁?[需要更多信息]
数据包括与书籍相关的元数据,这些元数据是由英国图书馆工作人员生成的。额外的注释是在2020年作为内部众包任务的一部分进行的。
注释过程新注释是通过众包任务产生的。注释者可以从更广泛的19世纪书籍收藏的特定语言子集中选择标题。因此,注释不是随机的,并且对某些语言进行了过多的代表。
[需要更多信息]
注释者是谁?在英国图书馆工作的工作人员。这些工作人员中的大多数在他们的工作中处理元数据,因此可以被视为专家注释者。
[需要更多信息]
[需要更多信息]
使用数据时需要考虑各种因素,包括数据集的代表性、对特定语言的偏向等。
还需要注意的是,图书馆元数据是不静态的。图书馆目录中保存的元数据会随时间更新和更改,原因多种多样。
不同机构编目物品的方式也各不相同。因此,在将此数据上训练的模型应用于新的收藏之前,评估其性能至关重要。
[需要更多信息]
[需要更多信息]
这个收藏中的文本源自历史文本。因此,文本将反映该时期的社会信念和态度。书籍的标题给出了它们内容的一些线索。以下是从所有标题中随机抽样的一些书名示例:
虽然仅凭标题是不足以了解此收藏中的偏见的,但它可以对语料库中的书籍所涵盖的主题给出一些见解。进一步查看标题可突出显示集合中可能存在的某些特定类型的偏见。这绝不是一个详尽无遗的列表。
殖民主义
从上述随机抽样的标题中,我们可以看到一些殖民主义态度的例子。我们可以通过搜索在英国帝国范围内的国家名称来进一步探索这一点,这些国家在很多这些书籍出版时期曾是英国帝国的一部分。
在标题中搜索字符串“India”,并随机抽样10个标题返回:
在标题中搜索字符串“Africa”,并随机抽样10个标题返回:
虽然此数据集不包括底层文本,但在考虑与书籍标题相关的潜在态度时还是很重要的,或者如果您将该数据集与全文一起使用,那么考虑其中的全部文本。
[需要更多信息]
[需要更多信息]
[需要更多信息]
这些书籍在 CC Public Domain Mark 1.0 许可下获得许可。
@misc{british library_genre, title={ 19th Century Books - metadata with additional crowdsourced annotations}, url={https://doi.org/10.23636/BKHQ-0312}, author={{British Library} and Morris, Victoria and van Strien, Daniel and Tolfo, Giorgia and Afric, Lora and Robertson, Stewart and Tiney, Patricia and Dogterom, Annelies and Wollner, Ildi}, year={2021}}
感谢 @davanstrien 添加了此数据集。