英文

blbooksgenre数据集卡片

数据集概述

该数据集包含与书籍相关的元数据,共 digitised by the British Library in partnership with Microsoft 本。其中一部分元数据来自于英国图书馆目录的导出,而另一部分是作为众包项目的一部分生成的。该书的文本和其他元数据可以在 date.bl 网站上找到。

该收藏中的大部分书籍是18世纪和19世纪出版的,但也包括少量早期时期的书籍。该收藏中的项目涵盖了广泛的主题,包括地理学、哲学、历史、诗歌和文学,并以多种语言出版。

对于包含额外众包注释的数据子集,出版日期的分布如下:

Date of publication
1630 8
1690 4
1760 10
1770 5
1780 5
1790 18
1800 45
1810 96
1820 152
1830 182
1840 259
1850 400
1860 377
1870 548
1880 776
1890 1484
1900 17
1910 1
1970 1

[需要更多信息]

支持的任务和排行榜

描述此数据集的数字化图书馆藏书已被用于各种数字历史和人文科学项目中。

此数据集适用于各种无监督任务,以及“流派分类任务”。

监督任务

该数据集的主要用途是开发和评估“流派分类”模型。数据集包括人工生成的标签,用于判断一本书是否为“小说”或“非小说”。这已用于训练流派分类模型,根据书名预测一本书是否为“小说”或“非小说”。

语言

[需要更多信息]

数据集结构

数据集目前有三个配置,旨在支持该数据集可用于的一系列任务:

  • title_genre_classification:创建一个去重版本的数据集,包括BL记录、标题和标签。
  • annotated_raw:该数据集版本包括原始数据集的所有带注释的字段。这包括来自不同注释者的重复数据。
  • raw:该数据集版本包括原始数据的所有数据,包括没有注释的数据。

数据实例

title_genre_classification配置的示例数据实例:

{'BL record ID': '014603046',
 'title': 'The Canadian farmer. A missionary incident [Signed: W. J. H. Y, i.e. William J. H. Yates.]',
 'label': 0}

annotated_raw配置的示例数据实例:

{'BL record ID': '014603046',
 'Name': 'Yates, William Joseph H.',
 'Dates associated with name': '',
 'Type of name': 'person',
 'Role': '',
 'All names': ['Yates, William Joseph H. [person] ', ' Y, W. J. H. [person]'],
 'Title': 'The Canadian farmer. A missionary incident [Signed: W. J. H. Y, i.e. William J. H. Yates.]',
 'Variant titles': '',
 'Series title': '',
 'Number within series': '',
 'Country of publication': ['England'],
 'Place of publication': ['London'],
 'Publisher': '',
 'Date of publication': '1879',
 'Edition': '',
 'Physical description': 'pages not numbered, 21 cm',
 'Dewey classification': '',
 'BL shelfmark': 'Digital Store 11601.f.36. (1.)',
 'Topics': '',
 'Genre': '',
 'Languages': ['English'],
 'Notes': 'In verse',
 'BL record ID for physical resource': '004079262',
 'classification_id': '267476823.0',
 'user_id': '15.0',
 'subject_ids': '44369003.0',
 'annotator_date_pub': '1879',
 'annotator_normalised_date_pub': '1879',
 'annotator_edition_statement': 'NONE',
 'annotator_FAST_genre_terms': '655 7 ‡aPoetry‡2fast‡0(OCoLC)fst01423828',
 'annotator_FAST_subject_terms': '60007 ‡aAlice,‡cGrand Duchess, consort of Ludwig IV, Grand Duke of Hesse-Darmstadt,‡d1843-1878‡2fast‡0(OCoLC)fst00093827',
 'annotator_comments': '',
 'annotator_main_language': '',
 'annotator_other_languages_summaries': 'No',
 'annotator_summaries_language': '',
 'annotator_translation': 'No',
 'annotator_original_language': '',
 'annotator_publisher': 'NONE',
 'annotator_place_pub': 'London',
 'annotator_country': 'enk',
 'annotator_title': 'The Canadian farmer. A missionary incident [Signed: W. J. H. Y, i.e. William J. H. Yates.]',
 'Link to digitised book': 'http://access.bl.uk/item/viewer/ark:/81055/vdc_00000002842E',
 'annotated': True,
 'Type of resource': 0,
 'created_at': datetime.datetime(2020, 8, 11, 14, 30, 33),
 'annotator_genre': 0}

数据字段

数据字段在不同配置之间略有不同。annotated_raw配置的所有可能字段如下所示。对于数据集的原始版本,数据类型通常为字符串,以避免处理缺失值时出现错误。

  • BL记录ID:英国图书馆使用的内部ID,可用于将此数据与其他BL收藏品链接。
  • 名称:与项目关联的名称(通常是作者)
  • 与名称相关的日期:与上述相关的日期,例如出生日期
  • 名称类型:名称是个人还是机构等
  • 角色:即名称是否为作者、出版商等
  • 所有名称:与项目关联的完整名称列表
  • 标题:作品的标题
  • 变体标题
  • 系列标题
  • 系列中的号码
  • 出版国家:以元数据中列出的国家列表编码
  • 出版地点:以元数据中列出的地点列表编码
  • 出版商
  • 出版日期:由于该字段可能包含日期范围,因此以字符串形式编码,例如1850-1855
  • 版本
  • 物理描述:以字符串形式编码,因为该字段的格式各不相同
  • 杜威分类
  • BL书架标记:英国图书馆书架标记
  • 主题:目录记录中包含的主题
  • 流派:原始目录记录中包含的流派信息,注意这通常是缺失的
  • 语言:以语言列表的形式编码
  • 注释:目录记录中的注释
  • 物理资源的BL记录ID

以下字段均通过众包任务生成(在下面的详细讨论中讨论):

  • classification_id:注释任务中分类的ID
  • user_id:注释者的ID
  • subject_ids:内部注释任务ID
  • annotator_date_pub:更新的出版日期
  • annotator_normalised_date_pub:上述日期的归一化版本
  • annotator_edition_statement:更新的版本说明
  • annotator_FAST_genre_terms: FAST classification genre terms
  • annotator_FAST_subject_terms: FAST subject terms
  • annotator_comments:自由形式的评论
  • annotator_main_language
  • annotator_other_languages_summaries
  • annotator_summaries_language
  • annotator_translation
  • annotator_original_language
  • annotator_publisher
  • annotator_place_pub
  • annotator_country
  • annotator_title
  • 链接到数字化图书
  • 已注释:一个布尔值,指示该行是否有注释
  • created_at:注释创建的时间
  • annotator_genre:书的流派的更新注释

最后,title_genre_classification配置的标签字段是一个带有值0(小说)或1(非小说)的类标签。

[需要更多信息]

数据拆分

此数据集只包含一个拆分:train。

数据集创建

注意:此部分正在进行中。

策展理由

这个收藏中的书籍是作为英国图书馆和微软之间的项目合作的一部分进行数字化的。 Mass digitisation ,即在快速数字化大量材料的目标下,项目选择了包括哪些材料,这在某种程度上影响了材料的组成方式。决定是否将物品包括在数字化中通常涉及以下考虑因素(但不限于此):

  • 版权状态
  • 保存需要——物品的尺寸,非常大或非常小的物品往往难以快速数字化

这些标准可能对收藏的构成产生连锁反应。例如,系统地排除大型书籍可能导致某些类型的书籍内容不会被数字化。大册子往往与内容至少在某种程度上相关,因此将它们排除在数字化之外将意味着该材料的表示不足。同样,版权状态通常(但不仅仅)由出版日期确定。这通常会导致在某个截止日期后,收藏中的物品数量迅速下降。

以上所有内容主要是为了明确指出,这个收藏并不旨在创建英国图书馆持有的代表性样本。某些材料将被过度代表,其他材料则会被低估。同样,不应将收藏品视为代表该数据集所涵盖的时间段内出版物的代表性样本(也不要认为各个时间段的数据相对比例代表了该时期出版物的比例样本)。

[需要更多信息]

源数据

原始源数据(实体物品)包括由 British Library 持有的各种资源(主要是单行本)。英国图书馆是一个 Legal Deposit 图书馆。"法定存档要求出版商向英国图书馆提供他们在英国出版的每一部作品的副本。这项法律自1662年以来一直存在于英国法律中。" source

[需要更多信息]

初始数据收集和规范化

该数据集的这个版本是部分来自英国图书馆目录记录的数据导出,部分是通过涉及英国图书馆工作人员的众包任务生成的数据。

资源语言生产者是谁?

[需要更多信息]

注释

数据包括与书籍相关的元数据,这些元数据是由英国图书馆工作人员生成的。额外的注释是在2020年作为内部众包任务的一部分进行的。

注释过程

新注释是通过众包任务产生的。注释者可以从更广泛的19世纪书籍收藏的特定语言子集中选择标题。因此,注释不是随机的,并且对某些语言进行了过多的代表。

[需要更多信息]

注释者是谁?

在英国图书馆工作的工作人员。这些工作人员中的大多数在他们的工作中处理元数据,因此可以被视为专家注释者。

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

使用数据时需要考虑各种因素,包括数据集的代表性、对特定语言的偏向等。

还需要注意的是,图书馆元数据是不静态的。图书馆目录中保存的元数据会随时间更新和更改,原因多种多样。

不同机构编目物品的方式也各不相同。因此,在将此数据上训练的模型应用于新的收藏之前,评估其性能至关重要。

[需要更多信息]

数据集的社会影响

[需要更多信息]

偏见讨论

这个收藏中的文本源自历史文本。因此,文本将反映该时期的社会信念和态度。书籍的标题给出了它们内容的一些线索。以下是从所有标题中随机抽样的一些书名示例:

  • 'Rhymes and Dreams, Legends of Pendle Forest, and other poems'
  • "Précis of Information concerning the Zulu Country, with a map. Prepared in the Intelligence Branch of the Quarter-Master-General's Department, Horse Guards, War Office, etc"
  • 'The fan. A poem'
  • 'Grif; a story of Australian Life'
  • 'Calypso; a masque: in three acts, etc'
  • 'Tales Uncle told [With illustrative woodcuts.]'
  • 'Questings'
  • 'Home Life on an Ostrich Farm. With ... illustrations'
  • 'Bulgarya i Bulgarowie'
  • 'Εἰς τα βαθη της Ἀφρικης [In darkest Africa.] ... Μεταφρασις Γεωρ. Σ. Βουτσινα, etc'
  • 'The Corsair, a tale','Poems ... With notes [With a portrait.]'
  • 'Report of the Librarian for the year 1898 (1899, 1901, 1909)'
  • "The World of Thought. A novel. By the author of 'Before I began to speak.'"
  • 'Amleto; tragedia ... recata in versi italiani da M. Leoni, etc']

虽然仅凭标题是不足以了解此收藏中的偏见的,但它可以对语料库中的书籍所涵盖的主题给出一些见解。进一步查看标题可突出显示集合中可能存在的某些特定类型的偏见。这绝不是一个详尽无遗的列表。

殖民主义

从上述随机抽样的标题中,我们可以看到一些殖民主义态度的例子。我们可以通过搜索在英国帝国范围内的国家名称来进一步探索这一点,这些国家在很多这些书籍出版时期曾是英国帝国的一部分。

在标题中搜索字符串“India”,并随机抽样10个标题返回:

  • "Travels in India in the Seventeenth Century: by Sir Thomas Roe and Dr. John Fryer. Reprinted from the 'Calcutta Weekly Englishman.'"
  • 'A Winter in India and Malaysia among the Methodist Missions'
  • "The Tourist's Guide to all the principal stations on the railways of Northern India [By W. W.] ... Fifth edition"
  • 'Records of Sport and Military Life in Western India ... With an introduction by ... G. B. Malleson'
  • "Lakhmi, the Rájpút's Bride. A tale of Gujarát in Western India [A poem.]"
  • 'The West India Commonplace Book: compiled from parliamentary and official documents; shewing the interest of Great Britain in its Sugar Colonies'
  • "From Tonkin to India : by the sources of the Irawadi, January '95-January '96"
  • 'Case of the Ameers of Sinde : speeches of Mr. John Sullivan, and Captain William Eastwick, at a special court held at the India House, ... 26th January, 1844'
  • 'The Andaman Islands; their colonization, etc. A correspondence addressed to the India Office'
  • 'Ancient India as described by Ptolemy; being a translation of the chapters which describe India and Eastern Asia in the treatise on Geography written by Klaudios Ptolemaios ... with introduction, commentary, map of India according to Ptolemy, and ... index, by J. W. McCrindle']

在标题中搜索字符串“Africa”,并随机抽样10个标题返回:

  • [' De Benguella ás Terras de Iácca. Descripção de uma viagem na Africa Central e Occidental ... Expedição organisada nos annos de 1877-1880. Edição illustrada'
  • 'To the New Geographical Society of Edinburgh [An address on Africa by H. M. Stanley.]'
  • 'Diamonds and Gold in South Africa ... With maps, etc'
  • 'Missionary Travels and Researches in South Africa ... With notes by F. S. Arnot. With map and illustrations. New edition'
  • 'A Narrative of a Visit to the Mauritius and South Africa ... Illustrated by two maps, sixteen etchings and twenty-eight wood-cuts'
  • 'Side Lights on South Africa ... With a map, etc'
  • 'My Second Journey through Equatorial Africa ... in ... 1886 and 1887 ... Translated ... by M. J. A. Bergmann. With a map ... and ... illustrations, etc'
  • 'Missionary Travels and Researches in South Africa ... With portrait and fullpage illustrations'
  • '[African sketches.] Narrative of a residence in South Africa ... A new edition. To which is prefixed a biographical sketch of the author by J. Conder'
  • 'Lake Ngami; or, Explorations and discoveries during four years wandering in the wilds of South Western Africa ... With a map, and numerous illustrations, etc']

虽然此数据集不包括底层文本,但在考虑与书籍标题相关的潜在态度时还是很重要的,或者如果您将该数据集与全文一起使用,那么考虑其中的全部文本。

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策展人

[需要更多信息]

许可信息

这些书籍在 CC Public Domain Mark 1.0 许可下获得许可。

引用信息

@misc{british library_genre, 
title={ 19th Century Books - metadata with additional crowdsourced annotations}, 
url={https://doi.org/10.23636/BKHQ-0312},
author={{British Library} and  Morris, Victoria and van Strien, Daniel and Tolfo, Giorgia and Afric, Lora and Robertson, Stewart and Tiney, Patricia and Dogterom, Annelies and Wollner, Ildi},
year={2021}}

贡献

感谢 @davanstrien 添加了此数据集。