PMC开放访问XML数据集卡片
数据集摘要
PMC开放访问XML数据集包含超过340万篇期刊文章和预印本,这些文章根据许可条款提供,允许重用。并非所有PMC中的文章都可用于文本挖掘和其他重用,许多有版权保护,但PMC开放访问子集的文章在通常允许比传统受版权保护的作品更自由的重定向和重用的创作共用或类似许可下提供。PMC开放访问子集是PMC文章数据集的一部分。
这个版本以XML版本为源,通过结构化文本将文章划分为引言、方法、结果、讨论和结论以及引用部分,并在文本中使用关键词进行外部或内部资源(文章、图像、表格、公式、插图、引用、代码、脚注、化学品、图形、媒体)的标记。
该数据集最初是为关系抽取任务而创建的,用于在文本中的引用和引文内容之间进行关系抽取(例如,通过将PubMed数据集中的引用文章摘要与之连接的方式),但它的目标更广泛,提供了预注释文本的语料库,用于其他任务(例如,图表标题到图形的转换,术语定义检测,摘要生成)。
支持的任务和排行榜
[需要更多信息]
语言
[需要更多信息]
数据集结构
数据字段
- "accession_id":文章的PMC ID
- "pmid":文章的PubMed ID
- "introduction":<body>中的<title>和<p>元素的列表,与包含"introduction"或"background"的<title>共享其根元素。
- "methods":与介绍相同,但使用"method"关键字。
- "results":与介绍相同,但使用"result"关键字。
- "discussion":与介绍相同,但使用"discussion"关键字。
- "conclusion":与介绍相同,但使用"conclusion"关键字。
- "front":在所有其他内容被搜索后,<front>中的<title>和<p>元素的列表。
- "body":在所有其他内容被搜索后,<body>中的<title>和<p>元素的列表。
- "back":在所有其他内容被搜索后,<back>中的<title>和<p>元素的列表。
- "figure":文章中的<fig>元素列表。
- "table":文章中的<table-wrap>和<array>元素列表。
- "formula":文章中的<disp-formula>和<inline-formula>元素列表。
- "box":文章中的<boxed-text>元素列表。
- "code":文章中的<code>元素列表。
- "quote":文章中的<disp-quote>和<speech>元素列表。
- "chemical":文章中的<chem-struct-wrap>元素列表。
- "supplementary":文章中的<supplementary-material>和<inline-supplementary-material>元素列表。
- "footnote":文章中的<fn-group>和<table-wrap-foot>元素列表。
- "graphic":文章中的<graphic>和<inline-graphic>元素列表。
- "media":文章中的<media>和<inline-media>元素列表。
- "glossary":XML中找到的词汇表
- "unknown_references":没有指示PMID的引用的每个"tag":"text"的JSON词典。
- "n_references":参考文献和未知引用的总数。
- "license":文章的许可证。
- "retracted":文章是否被撤回。
- "last_updated":文章的最后更新时间。
- "citation":文章的引文。
- "package_file":包含文章的图形和媒体文件的文件夹的路径(以附加到基本URL:ftp.ncbi.nlm.nih.gov/pub/pmc/)。
在文本中,引用的格式为##KEYWORD##IDX_REF##OLD_TEXT##,其中关键词(REF,UREF,FIG,TAB,FORMU,BOX,CODE,QUOTE,CHEM,SUPPL,FOOTN,GRAPH,MEDIA)分别引用“pubmed文章”(外部引用),“unknown_references”(未知引用),“figure”(图),“table”(表),“formula”(公式),“box”(框),“code”(代码),“quote”(引文),“chem”(化学物质),“supplementary”(补充材料),“footnote”(脚注),“graphic”(图形)和“media”(媒体)。
数据分割
[需要更多信息]
数据集创建
策划理由
特定标签用于找到内部引用(图,表等)。标签的选择是通过测试和查阅不同类型可能使用的文档进行的。然后,通过在标题中插入特定关键字来将文章分为引言、方法、结果、讨论和结论。因为此XML中没有针对这些部分进行标记的规则,所以查找关键字似乎是最可靠的方法。缺点是许多部分在标题中没有这些关键字,但可能与这些关键字相似。然而,标题的巨大多样性使得标记此类部分变得更加困难。这可能是该数据集以后版本的工作。
源数据
初始数据收集和标准化
数据来源于:
- ftp.ncbi.nlm.nih.gov/pub/pmc/oa_bulk/oa_noncomm/xml/
- ftp.ncbi.nlm.nih.gov/pub/pmc/oa_bulk/oa_comm/xml/
- ftp.ncbi.nlm.nih.gov/pub/pmc/oa_bulk/oa_other/xml/
可以从以下位置获取单个文章的额外内容(图形、媒体):
- ftp.ncbi.nlm.nih.gov/pub/pmc + "package_file"
谁是源语言的生产者?
[需要更多信息]
标注
标注过程
[需要更多信息]
谁是标注者?
[需要更多信息]
个人和敏感信息
[需要更多信息]
使用数据时的注意事项
数据集的社会影响
[需要更多信息]
偏差讨论
文章XML在不同集合中是相似的。这意味着如果某个集合处理结构的方式不同寻常,则整个集合的标注可能不如其他集合。这涉及所有部分(介绍、方法等)、外部引用(PMID)和内部引用(表、图等)。例如,引用有时以范围形式给出(例如10-15)。在这种情况下,只有10号和15号引用是连接的。这可能在以后的版本中得到处理。
其他已知限制
[需要更多信息]
预处理建议
- 过滤掉空内容。
- 从文本中删除不需要的引用,并用"references_text"或引用内容本身替换。
- 取消转义HTML特殊字符:import html; html.unescape(my_text)
- 删除文本中多余的换行符。
- 删除XML标记(<italic>、<sup>、<sub>等),替换为特殊标记?
- 连接内容列表的项。
附加信息
数据集策划者
[需要更多信息]
授权信息
https://www.ncbi.nlm.nih.gov/pmc/about/copyright/
在PMC开放访问子集中,有三个分组:
允许商业使用-CC0,CC BY,CC BY-SA,CC BY-ND许可证仅限非商业使用-CC BY-NC,CC BY-NC-SA,CC BY-NC-ND许可证;和其他-没有机器可读的创作共用许可证,没有许可证或自定义许可证。
引用信息
[需要更多信息]