数据集:

bigbio/swedish_medical_ner

语言:

sv

计算机处理:

monolingual
英文

瑞典医疗命名实体识别数据集简介

瑞典医疗命名实体识别数据集(swedish_medical_ner)是一个针对瑞典医学文本的命名实体识别数据集。它由三个子集组成,分别从三个不同的来源获取:瑞典维基百科(wiki)、Läkartidningen(lt)和1177 Vårdguiden(1177)。瑞典维基百科和Läkartidningen子集的总共包含超过790,000个长度为60个字符的序列,而1177 Vårdguiden子集是手动标注的,包含927个句子,2740个标注,其中1574个是疾病和发现,546个是药物,620个是人体结构。

来自瑞典维基百科和Läkartidningen的文本使用医学种子词列表进行自动标注。1177 Vårdguiden的句子是手动标注的。

引用信息

@inproceedings{almgren-etal-2016-named,
    author = {
        Almgren, Simon and
        Pavlov, Sean and
        Mogren, Olof
    },
    title     = {Named Entity Recognition in Swedish Medical Journals with Deep Bidirectional Character-Based LSTMs},
    booktitle = {Proceedings of the Fifth Workshop on Building and Evaluating Resources for Biomedical Text Mining (BioTxtM 2016)},
    publisher = {The COLING 2016 Organizing Committee},
    pages     = {30-39},
    year      = {2016},
    month     = {12},
    url       = {https://aclanthology.org/W16-5104},
    eprint    = {https://aclanthology.org/W16-5104.pdf}
}