英文

哈佛美国专利商标局专利数据集(HUPD)数据卡

数据集摘要

哈佛美国专利商标局数据集(HUPD)是一个大规模、结构良好且多用途的英文实用专利申请语料库,涵盖了2004年1月至2018年12月提交给美国专利商标局(USPTO)的专利申请。

论文中考虑的实验和任务

  • 专利验收预测:给定专利申请的某一部分(特别是摘要、权利要求或说明),预测该申请是否会被美国专利商标局接受。
  • 自动主题(IPC/CPC)分类:给定专利申请的(某些子集的)文本,预测主要的IPC或CPC代码。
  • 语言建模:对专利申请的权利要求和说明部分进行掩码/自回归语言建模。
  • 抽象摘要生成:给定专利申请的权利要求或权利要求部分,生成摘要。

语言

数据集仅包含英文文本。

领域

专利(知识产权)。

数据集策划者

该数据集是由Mirac Suzgun、Luke Melas-Kyriazi、Suproteem K. Sarkar、Scott Duke Kominers和Stuart M. Shieber创建的。

数据集结构

每个专利申请由一个独立的JSON文件定义,文件名以其申请号命名,包括申请和公开号、标题、决定状态、申请和公开日期、主要和次要分类代码、发明者、审查员、律师、摘要、权利要求、背景、摘要和拟议发明的完整说明等信息。还包括其他补充变量,例如小实体指标(表示申请人是否被美国专利商标局视为小实体)和外国申请指标(表示该申请最初是否在外国提交)。

总共,每个申请有34个数据字段。数据集中使用的所有数据字段的完整列表在下一节中列出。

数据实例

在我们的专利数据集中,每个专利申请由一个独立的JSON文件定义(例如,8914308.json),命名为其唯一申请号。JSON文件的格式如下:

{
    "application_number": "...",
    "publication_number": "...",
    "title": "...",
    "decision": "...",
    "date_produced": "...",
    "date_published": "...",
    "main_cpc_label": "...",
    "cpc_labels": ["...", "...", "..."],
    "main_ipcr_label": "...",
    "ipcr_labels": ["...", "...", "..."],
    "patent_number": "...",
    "filing_date": "...",
    "patent_issue_date": "...",
    "abandon_date": "...",
    "uspc_class": "...",
    "uspc_subclass": "...",
    "examiner_id": "...",
    "examiner_name_last": "...",
    "examiner_name_first": "...",
    "examiner_name_middle": "...",
    "inventor_list": [
        {
            "inventor_name_last": "...",
            "inventor_name_first": "...",
            "inventor_city": "...",
            "inventor_state": "...",
            "inventor_country": "..."
        }
    ],
    "abstract": "...",
    "claims": "...",
    "background": "...",
    "summary": "...",
    "full_description": "..."
}

使用方法

加载数据集

以下命令可用于加载数据集的样本版本,该版本包含2016年1月提交给美国专利商标局的所有专利申请。这个数据集的小子集可用于调试和探索目的。

from datasets import load_dataset

dataset_dict = load_dataset('HUPD/hupd',
    name='sample',
    data_files="https://huggingface.co/datasets/HUPD/hupd/blob/main/hupd_metadata_2022-02-22.feather", 
    icpr_label=None,
    train_filing_start_date='2016-01-01',
    train_filing_end_date='2016-01-21',
    val_filing_start_date='2016-01-22',
    val_filing_end_date='2016-01-31',
)
完整数据集

如果要使用完整版本的数据集,请确保将名称字段从sample更改为all,并谨慎指定训练和验证的起始和结束日期,并将force_extract设置为True(这样您只会解压缩您感兴趣的文件,而不会浪费磁盘存储空间)。例如,在下面的示例中,我们将训练集年份范围设置为[2011,2016](包括) ,并将验证集年份范围设置为2017。

from datasets import load_dataset

dataset_dict = load_dataset('HUPD/hupd',
    name='all',
    data_files="https://huggingface.co/datasets/HUPD/hupd/blob/main/hupd_metadata_2022-02-22.feather", 
    icpr_label=None,
    force_extract=True,
    train_filing_start_date='2011-01-01',
    train_filing_end_date='2016-12-31',
    val_filing_start_date='2017-01-01',
    val_filing_end_date='2017-12-31',
)

Google Colab笔记本

您还可以使用以下Google Colab笔记本来探索HUPD。

数据集创建

源数据

HUPD综合了来自USPTO的多个数据源:专利申请全文来自USPTO批量数据存储系统(专利申请数据/XML版本4.0、4.1、4.2、4.3、4.4 ICE以及版本1.5)的XML文件,而文献申请元数据来自USPTO专利审查研究数据集(2021年2月)。

注释

除了我们提供的专利决策标签外,数据集不包含任何人工撰写或计算机生成的注释,除非由专利申请人或USPTO生成。

数据变动

HUPD的一个重要特点是其结构,它使得它能够展示随时间推移概念的演变。正如我们在论文中所示,各类别的专利验收标准在不同的时间点上以不同的速率变化。我们认为这是数据集的一个重要特征,不仅因为它引发了社会科学问题,还因为它有助于对能够适应真实世界中概念变化的模型进行研究。

个人和敏感信息

数据集包含有关每个专利申请的发明者和审查员的信息。然而,这些详细信息已经在公共领域中,并可在USPTO的专利申请信息检索(PAIR)系统以及Google专利和PatentsView上获得。

数据集的社会影响

数据集的作者希望HUPD对机器学习/自然语言处理和经济/知识产权社区产生积极的社会影响。他们在 the paper 中对这些考虑进行了更详细的讨论。

对未受服务社区的影响和偏见的讨论

数据集包含以英语撰写的专利申请,这是自然语言处理领域密切关注的一种语言。但是,创新分布在许多语言、文化和社区中,这些在这个数据集中没有得到体现。因此,HUPD并不代表所有类型的创新。此外,专利申请需要固定成本来起草和申请,并非人人都能够使用。这个数据集的目标之一是促进降低起草申请成本的研究,从而使更多的人能够为他们的创新寻求知识产权保护。

偏见的讨论

the HUPD paper 的第4节对数据集进行了潜在偏见的审查。它显示出,在美国的专利系统中女性发明者明显少见,小型和微型实体(如独立发明者、小公司、非盈利组织)获得专利的成功机会低于大型实体(如雇员超过500名的公司),而专利申请和验收率在美国各地分布不均匀。我们的经验结果表明,任何专注于验收预测任务的研究,特别是如果使用了发明者信息或小实体指示器作为输入的一部分,都应该注意数据集中潜在偏见的存在,并在考虑这些偏见的情况下谨慎解释其结果。

  • 请参阅第4节和第D节,深入讨论数据集中潜在偏见的问题。

许可信息

HUPD采用创作共用署名-非商业性使用-相同方式共享4.0国际许可证发布。

引用信息

@article{suzgun2022hupd,
    title={The Harvard USPTO Patent Dataset: A Large-Scale, Well-Structured, and Multi-Purpose Corpus of Patent Applications},
    author={Suzgun, Mirac and Melas-Kyriazi, Luke and Sarkar, Suproteem K. and Kominers, Scott Duke and Shieber, Stuart M.},
    year={2022},
    publisher={arXiv preprint arXiv:2207.04043},
    url={https://arxiv.org/abs/2207.04043},