数据集:

sofc_materials_articles

任务:

文本生成

填充掩码

标记分类

子任务:

named-entity-recognition slot-filling topic-classification

语言:

计算机处理:

monolingual

大小:

n<1K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:2006.03039

许可:

cc-by-4.0

数据集介绍文件清单

英文

SofcMaterialsArticles数据集信息卡

数据集概述

SOFC-Exp语料库包含了45篇关于固体氧化物燃料电池（SOFC）的科学文章，这些文章在2013年至2019年期间以开放获取形式发表，拥有CC-BY许可证。该数据集由领域专家手动对以下信息进行了注释：

通过图结构标记了相关实验的提及情况，该图结构对应于一个实验帧的实例（类似于FrameNet中使用的实验帧）。我们假设实验帧是通过提到报告、测试或测量等词汇（也称为帧诱发元素）来引入语篇的。对应的令牌所表示的节点是表示实验帧的图的头。
与SOFC-Experiments相关的实验帧定义了16个可能的参与者槽。参与者被注释为帧诱发元素与参与者节点之间的链接的从属者。
此外，我们为所有帧参与者提供了粗粒度的实体/概念类型，即材料、值或设备。请注意，此注释不是在全文中进行的，而只是在包含有关相关实验信息的句子上进行的，此外还有一些句子。在论文中，我们仅对标记为描述实验的句子的黄金标准集合进行了两项任务的实验，这显然是一个稍微简化的设置。在自动实验句子检测作为第一步的完全自动设置中，当然也可以评估槽填充。

支持的任务和排行榜

主题分类：可以使用数据集训练一个模型进行主题分类，以识别提到SOFC相关实验的句子。
命名实体识别：可以使用数据集训练一个命名实体识别模型，以检测MATERIAL、VALUE、DEVICE和EXPERIMENT实体。
槽填充：槽填充任务被视为上下文中的细粒度实体类型，假设每个句子代表一个单独的实验帧。利用序列标记体系结构为每个描述实验的句子的令牌进行标记集生成的槽类型。

本文采用BiLSTM架构与BERT和SciBERT生成的令牌嵌入进行实验，以及直接使用BERT和SciBERT进行建模任务。序列标记任务采用简单的CRF架构作为基线。基于Transformer的架构的实现可以在huggingface/transformers库中找到： BERT ， SciBERT

语言

该语料库为英文。

数据集结构

数据实例

由于每个例子都是一篇学术论文的完整文本，加上注释，所以用json格式的例子在此自述文件中会占用过多的空间。

数据字段

text：论文的完整文本
sentence_offsets：文本中每个句子的起始和结束字符偏移量。
- begin_char_offset：一个int64特征。
- end_char_offset：一个int64特征。
sentences：文本中句子的序列（使用sentence_offsets）
sentence_labels：每个句子是否包含相关信息的二进制标签序列。
token_offsets：包含文本中每个句子中每个令牌的起始和结束字符偏移量的序列的序列。
- offsets：包含以下内容的字典特征：
tokens：包含文本中每个句子的令牌的序列。
- feature：一个字符串特征。
entity_labels：包含以下内容的字典特征：
- feature：一个分类标签，可能的值包括B-DEVICE、B-EXPERIMENT、B-MATERIAL、B-VALUE、I-DEVICE。
slot_labels：包含以下内容的字典特征：
- feature：一个分类标签，可能的值包括B-anode_material、B-cathode_material、B-conductivity、B-current_density、B-degradation_rate。
links：包含以下内容的字典特征：
- relation_label：一个分类标签，可能的值包括coreference、experiment_variation、same_experiment、thickness。
- start_span_id：一个int64特征。
- end_span_id：一个int64特征。
slots：包含以下内容的字典特征：
- frame_participant_label：一个分类标签，可能的值包括anode_material、cathode_material、current_density、degradation_rate、device。
- slot_id：一个int64特征。
spans：包含以下内容的字典特征：
- span_id：一个int64特征。
- entity_label：一个分类标签，可能的值包括`，DEVICE、MATERIAL、VALUE。
- sentence_id：一个int64特征。
- experiment_mention_type：一个分类标签，可能的值包括`，current_exp、future_work、general_info、previous_work。
- begin_char_offset：一个int64特征。
- end_char_offset：一个int64特征。
experiments：包含以下内容的字典特征：
- experiment_id：一个int64特征。
- span_id：一个int64特征。
- slots：包含以下内容的字典特征：
  - frame_participant_label：一个分类标签，可能的值包括anode_material、cathode_material、current_density、degradation_rate、conductivity。
  - slot_id：一个int64特征。

更详细的字段信息可以在相关数据集存储库的 corpus file formats section 中找到

数据划分

该数据集包含三个数据划分：

Train	Valid	Test
Input Examples	26	8	11

作者提出了使用训练数据在5折交叉验证设置中进行开发和调整，并最终将模型应用于独立的测试集的实验设置。

数据集创建

策展理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的生产者？

该语料库由45篇关于SOFC和相关研究的开放访问科学出版物组成，由领域专家进行了注释。

注释

注释过程

在手动注释过程中，作者使用InCeption注释工具（Klie等人，2018）。

谁是标注者？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的考虑事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策展人

[需要更多信息]

许可信息

为SOFC-Exp语料库创建的手动注释受 Creative Commons Attribution 4.0 International License (CC-BY-4.0) 许可证保护。

引用信息

@misc{friedrich2020sofcexp,
      title={The SOFC-Exp Corpus and Neural Approaches to Information Extraction in the Materials Science Domain},
      author={Annemarie Friedrich and Heike Adel and Federico Tomazic and Johannes Hingerl and Renou Benteau and Anika Maruscyk and Lukas Lange},
      year={2020},
      eprint={2006.03039},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

贡献者

感谢 @ZacharySBrown 添加了这个数据集。

作者:

佚名

数据集大小:

3.5 MB