数据集:
bigbio/swedish_medical_ner
瑞典医疗命名实体识别数据集(swedish_medical_ner)是一个针对瑞典医学文本的命名实体识别数据集。它由三个子集组成,分别从三个不同的来源获取:瑞典维基百科(wiki)、Läkartidningen(lt)和1177 Vårdguiden(1177)。瑞典维基百科和Läkartidningen子集的总共包含超过790,000个长度为60个字符的序列,而1177 Vårdguiden子集是手动标注的,包含927个句子,2740个标注,其中1574个是疾病和发现,546个是药物,620个是人体结构。
来自瑞典维基百科和Läkartidningen的文本使用医学种子词列表进行自动标注。1177 Vårdguiden的句子是手动标注的。
@inproceedings{almgren-etal-2016-named, author = { Almgren, Simon and Pavlov, Sean and Mogren, Olof }, title = {Named Entity Recognition in Swedish Medical Journals with Deep Bidirectional Character-Based LSTMs}, booktitle = {Proceedings of the Fifth Workshop on Building and Evaluating Resources for Biomedical Text Mining (BioTxtM 2016)}, publisher = {The COLING 2016 Organizing Committee}, pages = {30-39}, year = {2016}, month = {12}, url = {https://aclanthology.org/W16-5104}, eprint = {https://aclanthology.org/W16-5104.pdf} }