数据集:
biosses
任务:
文本分类语言:
en计算机处理:
monolingual大小:
n<1K语言创建人:
found批注创建人:
expert-generated源数据集:
original许可:
gpl-3.0BIOSSES 是一个用于生物医学句子相似度估计的基准数据集。该数据集由100个句子对组成,每个句子都是从包含 TAC (Text Analysis Conference) Biomedical Summarization Track Training Dataset 篇生物医学领域文章中选出的。BIOSSES中的句子对是从引用句中选择的,即具有对参考文献的引用的句子。
这些句子对由五位不同的人工专家进行评估,他们判断句子的相似性并给出从0(无关系)到4(相等)的分数。在原始论文中,将五位人工标注者分配的分数的平均值作为黄金标准。黄金标准分数与模型估计分数的皮尔逊相关性被用作评估指标。在Evans(1996)提出的一般准则中,可以根据相关性的强度进行评估,如下所示:
生物医学语义相似性评分。
英语。
对于每个实例,都有两个句子(即句子1和2),以及其对应的相似度分数(由五位人工标注者分配的分数的平均值)。
{'sentence 1': 'Here, looking for agents that could specifically kill KRAS mutant cells, they found that knockdown of GATA2 was synthetically lethal with KRAS mutation' 'sentence 2': 'Not surprisingly, GATA2 knockdown in KRAS mutant cells resulted in a striking reduction of active GTP-bound RHO proteins, including the downstream ROCK kinase' 'score': 2.2}
没有提供数据拆分。
TAC (Text Analysis Conference) Biomedical Summarization Track Training Dataset 。
句子对由五位不同的人工专家进行评估,他们判断句子的相似性并给出从0(无关系)到4(相等)的分数。根据SemEval 2012任务6关于STS(Agirre等,2012)的指南,描述了评分范围。除了注释说明外,还为标注员提供了来自生物医学文献的例句,以描述相似度的各个程度。
下表显示了各注释者的分数与其他四个注释者的平均分数之间的皮尔逊相关性。可以看出,注释者的分数之间存在很强的关联性。最低的相关性为0.902,可视为算法在此数据集上评估的上限。
Correlation r | |
---|---|
Annotator A | 0.952 |
Annotator B | 0.958 |
Annotator C | 0.917 |
Annotator D | 0.902 |
Annotator E | 0.941 |
注释者是谁?
The GNU Common Public License v.3.0
The GNU Common Public License v.3.0
The GNU Common Public License v.3.0
The GNU Common Public License v.3.0
The GNU Common Public License v.3.0
BIOSSES 在 The GNU Common Public License v.3.0 条款下提供。
@article{souganciouglu2017biosses, title={BIOSSES: a semantic sentence similarity estimation system for the biomedical domain}, author={So{\u{g}}anc{\i}o{\u{g}}lu, Gizem and {"O}zt{"u}rk, Hakime and {"O}zg{"u}r, Arzucan}, journal={Bioinformatics}, volume={33}, number={14}, pages={i49--i58}, year={2017}, publisher={Oxford University Press}}
感谢 @bwang482 添加此数据集。