数据集:
swedish_medical_ner
SwedMedNER 是一个用于医学文本的命名实体识别数据集,使用的是瑞典语。它由三个子集组成,分别来自三个不同的来源:瑞典维基百科(也称为wiki),Läkartidningen(也称为lt)和 1177 Vårdguiden(也称为1177)。瑞典维基百科和 Läkartidningen 的子集总共包含了超过 79 万个每个有 60 个字符的序列,而 1177 Vårdguiden 的子集是手动标注的,包含了927个句子和 2740 个注解,其中 1574 个是疾病和症状,546 个是药物,620个是身体结构。
来自瑞典维基百科和 Läkartidningen 的文本是使用医学种子词列表自动标注的。1177 Vårdguiden 的句子是手动标注的。
医学命名实体识别。
瑞典语 (SV)。
下面是示例句子:
( Förstoppning ) är ett vanligt problem hos äldre. [ Cox-hämmare ] finns även som gel och sprej. [ Medicinen ] kan också göra att man blöder lättare eftersom den påverkar { blodets } förmåga att levra sig.
标签如下:
数据示例:
In: data = load_dataset('./datasets/swedish_medical_ner', "wiki") In: data['train']: Out: Dataset({ features: ['sid', 'sentence', 'entities'], num_rows: 48720 }) In: data['train'][0]['sentence'] Out: '{kropp} beskrivs i till exempel människokroppen, anatomi och f' In: data['train'][0]['entities'] Out: {'start': [0], 'end': [7], 'text': ['kropp'], 'type': [2]}
在原始论文中,作者使用了 Läkartidningen 的文本进行模型训练,使用瑞典维基百科进行验证,并使用 1177.se 进行最终模型评估。
[需要更多信息]
源语言制作者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
此数据集根据 Creative Commons Attribution-ShareAlike 4.0 International Public License (CC BY-SA 4.0) 发布。
@inproceedings{almgrenpavlovmogren2016bioner, title={Named Entity Recognition in Swedish Medical Journals with Deep Bidirectional Character-Based LSTMs}, author={Simon Almgren, Sean Pavlov, Olof Mogren}, booktitle={Proceedings of the Fifth Workshop on Building and Evaluating Resources for Biomedical Text Mining (BioTxtM 2016)}, pages={1}, year={2016} }
感谢 @bwang482 添加了这个数据集。