数据集:

biosses

语言:

en

计算机处理:

monolingual

大小:

n<1K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

许可:

gpl-3.0
英文

BIOSSES 数据集卡片

数据集摘要

BIOSSES 是一个用于生物医学句子相似度估计的基准数据集。该数据集由100个句子对组成,每个句子都是从包含 TAC (Text Analysis Conference) Biomedical Summarization Track Training Dataset 篇生物医学领域文章中选出的。BIOSSES中的句子对是从引用句中选择的,即具有对参考文献的引用的句子。

这些句子对由五位不同的人工专家进行评估,他们判断句子的相似性并给出从0(无关系)到4(相等)的分数。在原始论文中,将五位人工标注者分配的分数的平均值作为黄金标准。黄金标准分数与模型估计分数的皮尔逊相关性被用作评估指标。在Evans(1996)提出的一般准则中,可以根据相关性的强度进行评估,如下所示:

  • 非常强:0.80–1.00
  • 强:0.60–0.79
  • 中等:0.40–0.59
  • 弱:0.20–0.39
  • 非常弱:0.00–0.19

支持的任务和排行榜

生物医学语义相似性评分。

语言

英语。

数据集结构

数据实例

对于每个实例,都有两个句子(即句子1和2),以及其对应的相似度分数(由五位人工标注者分配的分数的平均值)。

{'sentence 1': 'Here, looking for agents that could specifically kill KRAS mutant cells, they found that knockdown of GATA2 was synthetically lethal with KRAS mutation'
 'sentence 2': 'Not surprisingly, GATA2 knockdown in KRAS mutant cells resulted in a striking reduction of active GTP-bound RHO proteins, including the downstream ROCK kinase'
 'score': 2.2}

数据字段

  • 句子1 : 字符串
  • 句子2 : 字符串
  • 分数 : 浮点数,范围从0(无关系)到4(相等)

数据拆分

没有提供数据拆分。

数据集创建

策划理由

数据来源

TAC (Text Analysis Conference) Biomedical Summarization Track Training Dataset

注释

句子对由五位不同的人工专家进行评估,他们判断句子的相似性并给出从0(无关系)到4(相等)的分数。根据SemEval 2012任务6关于STS(Agirre等,2012)的指南,描述了评分范围。除了注释说明外,还为标注员提供了来自生物医学文献的例句,以描述相似度的各个程度。

下表显示了各注释者的分数与其他四个注释者的平均分数之间的皮尔逊相关性。可以看出,注释者的分数之间存在很强的关联性。最低的相关性为0.902,可视为算法在此数据集上评估的上限。

Correlation r
Annotator A 0.952
Annotator B 0.958
Annotator C 0.917
Annotator D 0.902
Annotator E 0.941

注释者是谁?

The GNU Common Public License v.3.0

个人和敏感信息

The GNU Common Public License v.3.0

使用数据的注意事项

数据集的社会影响

The GNU Common Public License v.3.0

偏见讨论

The GNU Common Public License v.3.0

其他已知限制

The GNU Common Public License v.3.0

其他信息

数据集创建者

  • Gizem Soğancıoğlu, gizemsogancioglu@gmail.com
  • Hakime Öztürk, hakime.ozturk@boun.edu.tr
  • Arzucan Özgür, gizemsogancioglu@gmail.com Bogazici University, Istanbul, Turkey

许可信息

BIOSSES 在 The GNU Common Public License v.3.0 条款下提供。

引用信息

@article{souganciouglu2017biosses, title={BIOSSES: a semantic sentence similarity estimation system for the biomedical domain}, author={So{\u{g}}anc{\i}o{\u{g}}lu, Gizem and {"O}zt{"u}rk, Hakime and {"O}zg{"u}r, Arzucan}, journal={Bioinformatics}, volume={33}, number={14}, pages={i49--i58}, year={2017}, publisher={Oxford University Press}}

贡献

感谢 @bwang482 添加此数据集。