数据集:

swedish_medical_ner

任务:

标记分类

子任务:

named-entity-recognition

语言:

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

machine-generated expert-generated

源数据集:

original

许可:

cc-by-sa-4.0

数据集介绍文件清单

英文

Swedish_medical_ner 的数据集卡片

数据集摘要

SwedMedNER 是一个用于医学文本的命名实体识别数据集，使用的是瑞典语。它由三个子集组成，分别来自三个不同的来源：瑞典维基百科（也称为wiki），Läkartidningen（也称为lt）和 1177 Vårdguiden（也称为1177）。瑞典维基百科和 Läkartidningen 的子集总共包含了超过 79 万个每个有 60 个字符的序列，而 1177 Vårdguiden 的子集是手动标注的，包含了927个句子和 2740 个注解，其中 1574 个是疾病和症状，546 个是药物，620个是身体结构。

来自瑞典维基百科和 Läkartidningen 的文本是使用医学种子词列表自动标注的。1177 Vårdguiden 的句子是手动标注的。

支持的任务和排行榜

医学命名实体识别。

语言

瑞典语 (SV)。

数据集结构

数据实例

下面是示例句子：

( Förstoppning ) är ett vanligt problem hos äldre.
[ Cox-hämmare ] finns även som gel och sprej.
[ Medicinen ] kan också göra att man blöder lättare eftersom den påverkar { blodets } förmåga att levra sig.

标签如下：

括号（）: 疾病和症状
方括号[]: 药物
花括号{}: 身体结构

数据示例：

In: data = load_dataset('./datasets/swedish_medical_ner', "wiki")
In: data['train']:
Out: 
Dataset({
    features: ['sid', 'sentence', 'entities'],
    num_rows: 48720
})

In: data['train'][0]['sentence']
Out: '{kropp} beskrivs i till exempel människokroppen, anatomi och f'
In: data['train'][0]['entities']
Out: {'start': [0], 'end': [7], 'text': ['kropp'], 'type': [2]}

数据字段

句子
实体
- 开始位置: 起始索引
- 结束位置: 结束索引
- 文本: 实体的文本
- 类型: 实体类型，疾病和症状 (0), 药物 (1) 或身体结构 (2)

数据分割

在原始论文中，作者使用了 Läkartidningen 的文本进行模型训练，使用瑞典维基百科进行验证，并使用 1177.se 进行最终模型评估。

数据集创建

策划理由

来源数据

瑞典维基百科；
Läkartidningen - 包含瑞典医疗专业期刊的文章；
1177.se - 瑞典公共卫生保健机构提供的网站，包含信息、咨询和其他健康保健服务。

初始数据收集和归一化

[需要更多信息]

源语言制作者是谁？

[需要更多信息]

注释

注释过程

使用 SweMeSH 和 SNOMED CT 提取了一个种子词列表；
- 使用以下预定义类别进行提取：disorder & finding（疾病和症状），pharmaceutical drug（药物）和body structure（身体结构）
对瑞典维基百科的文章进行手动选择了一份医学领域文章的初始列表。下载了这些源文章以及它们链接的文章，并使用上述种子词在上下文窗口为60个字符的情况下进行了自动标注；
下载了 Läkartidningen 语料库的文章，并使用上述种子词在上下文窗口为60个字符的情况下进行了自动标注；
在2016年5月下载了来自 1177.se 的 15 个文件，然后使用种子词进行了手动标注，得到了2740个注释。

标注者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

Simon Almgren, simonwalmgren@gmail.com
Sean Pavlov, sean.pavlov@gmail.com
Olof Mogren, olof@mogren.one Chalmers University of Technology

许可信息

此数据集根据 Creative Commons Attribution-ShareAlike 4.0 International Public License (CC BY-SA 4.0) 发布。

引用信息

@inproceedings{almgrenpavlovmogren2016bioner,
  title={Named Entity Recognition in Swedish Medical Journals with Deep Bidirectional Character-Based LSTMs},
  author={Simon Almgren, Sean Pavlov, Olof Mogren},
  booktitle={Proceedings of the Fifth Workshop on Building and Evaluating Resources for Biomedical Text Mining (BioTxtM 2016)},
  pages={1},
  year={2016}
}

贡献者

感谢 @bwang482 添加了这个数据集。

作者:

佚名

数据集大小:

24.44 KB