数据集:

big_patent

语言:

en

计算机处理:

monolingual

语言创建人:

found

批注创建人:

no-annotation

源数据集:

original

预印本库:

arxiv:1906.03741

许可:

cc-by-4.0
英文

Big Patent 数据集卡片

数据集摘要

BIGPATENT 数据集包含了130万份美国专利文件记录,以及人工编写的摘要。每个美国专利申请都归类于一个合作专利分类(CPC)代码。共有九个分类类别:

  • a:人类生活必需品
  • b:执行操作;运输
  • c:化学;冶金
  • d:纺织品;纸张
  • e:固定建筑物
  • f:机械工程;闪电;加热;武器;爆破
  • g:物理学
  • h:电力
  • y:新技术的普遍标签

当前默认的是2.1.2版本(修复大小写的原始字符串)和“all” CPC代码:

from datasets import load_dataset

ds = load_dataset("big_patent")  # default is 'all' CPC codes
ds = load_dataset("big_patent", "all")  # the same as above
ds = load_dataset("big_patent", "a")  # only 'a' CPC codes
ds = load_dataset("big_patent", codes=["a", "b"])

要使用1.0.0版本(小写分词词语),请同时传入参数代码和版本:

ds = load_dataset("big_patent", codes="all", version="1.0.0")
ds = load_dataset("big_patent", codes="a", version="1.0.0")
ds = load_dataset("big_patent", codes=["a", "b"], version="1.0.0")

支持的任务和排行榜

[需要更多信息]

语言

英语

数据集结构

数据实例

每个实例包含一对描述和摘要。描述是从专利的描述部分提取的,而摘要是从摘要部分提取的。

{
  'description': 'FIELD OF THE INVENTION  \n       [0001]     This invention relates to novel calcium phosphate-coated implantable medical devices and processes of making same. The unique calcium-phosphate coated implantable medical devices minimize...',
  'abstract': 'This invention relates to novel calcium phosphate-coated implantable medical devices...'
}

数据字段

  • 描述:专利的详细描述。
  • 摘要:专利摘要。

数据切分

train validation test
all 1207222 67068 67072
a 174134 9674 9675
b 161520 8973 8974
c 101042 5613 5614
d 10164 565 565
e 34443 1914 1914
f 85568 4754 4754
g 258935 14385 14386
h 257019 14279 14279
y 124397 6911 6911

数据集创建

策划原理

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言生成者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@article{DBLP:journals/corr/abs-1906-03741,
  author    = {Eva Sharma and
               Chen Li and
               Lu Wang},
  title     = {{BIGPATENT:} {A} Large-Scale Dataset for Abstractive and Coherent
               Summarization},
  journal   = {CoRR},
  volume    = {abs/1906.03741},
  year      = {2019},
  url       = {http://arxiv.org/abs/1906.03741},
  eprinttype = {arXiv},
  eprint    = {1906.03741},
  timestamp = {Wed, 26 Jun 2019 07:14:58 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1906-03741.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

贡献者

感谢 @mattbui 添加了该数据集。