数据集:
chcaa/DANSK
语言:
DANSK(Danish Annotations for NLP Specific TasKs)数据集是一个包含来自多个领域的文本的数据集,从丹麦GigaWord语料库(DAGW)中采样而来。该数据集的创建是为了填补丹麦NLP数据集在不同领域上的空白,以便训练能够跨领域泛化的模型。命名实体的注释是细粒度的,并且与OntoNotes v5的形式相似,这极大地扩展了数据集的用途。 领域包括Web、新闻、维基百科、图书、法律、Dannet、会话和社交媒体。有关领域的更详细了解,请参阅 DAGW 。
在下表中可以看到每个领域内的文本和命名实体的分布情况:
DANSK数据集目前仅支持命名实体识别,但将在以后的版本发布中包含更多任务的数据。
数据集中的所有文本均为丹麦语。可能会出现来自各种平台或方言的俚语,与原始采样文本的领域相关 - 例如社交媒体。
JSON格式的数据的形式如下所示:
{ "text": "Aborrer over 2 kg er en uhyre sj\u00e6lden fangst.", "ents": [{"start": 13, "end": 17, "label": "QUANTITY"}], "sents": [{"start": 0, "end": 45}], "tokens": [ {"id": 0, "start": 0, "end": 7}, {"id": 1, "start": 8, "end": 12}, {"id": 2, "start": 13, "end": 14}, {"id": 3, "start": 15, "end": 17}, {"id": 4, "start": 18, "end": 20}, {"id": 5, "start": 21, "end": 23}, {"id": 6, "start": 24, "end": 29}, {"id": 7, "start": 30, "end": 37}, {"id": 8, "start": 38, "end": 44}, {"id": 9, "start": 44, "end": 45}, ], "spans": {"incorrect_spans": []}, "dagw_source": "wiki", "dagw_domain": "Wiki & Books", "dagw_source_full": "Wikipedia", }
数据随机分为三个不同的部分:训练集、开发集和测试集。这些分割来自同一数据集,因此集合之间没有基本差异。有关不同分区的命名实体和领域的分布情况,请参考论文,或阅读此标记中提供的表面统计数据。
各个分区的命名实体注释组成如下表所示:
Full | Train | Validation | Test | |
---|---|---|---|---|
Texts | 15062 | 12062 (80%) | 1500 (10%) | 1500 (10%) |
Named entities | 14462 | 11638 (80.47%) | 1327 (9.18%) | 1497 (10.25%) |
CARDINAL | 2069 | 1702 (82.26%) | 168 (8.12%) | 226 (10.92%) |
DATE | 1756 | 1411 (80.35%) | 182 (10.36%) | 163 (9.28%) |
EVENT | 211 | 175 (82.94%) | 19 (9.00%) | 17 (8.06%) |
FACILITY | 246 | 200 (81.30%) | 25 (10.16%) | 21 (8.54%) |
GPE | 1604 | 1276 (79.55%) | 135 (8.42%) | 193 (12.03%) |
LANGUAGE | 126 | 53 (42.06%) | 17 (13.49%) | 56 (44.44%) |
LAW | 183 | 148 (80.87%) | 17 (9.29%) | 18 (9.84%) |
LOCATION | 424 | 351 (82.78%) | 46 (10.85%) | 27 (6.37%) |
MONEY | 714 | 566 (79.27%) | 72 (10.08%) | 76 (10.64%) |
NORP | 495 | 405 (81.82%) | 41 (8.28%) | 49 (9.90%) |
ORDINAL | 127 | 105 (82.68%) | 11 (8.66%) | 11 (8.66%) |
ORGANIZATION | 2507 | 1960 (78.18%) | 249 (9.93%) | 298 (11.87%) |
PERCENT | 148 | 123 (83.11%) | 13 (8.78%) | 12 (8.11%) |
PERSON | 2133 | 1767 (82.84%) | 191 (8.95%) | 175 (8.20%) |
PRODUCT | 763 | 634 (83.09%) | 57 (7.47%) | 72 (9.44%) |
QUANTITY | 292 | 242 (82.88%) | 28 (9.59%) | 22 (7.53%) |
TIME | 218 | 185 (84.86%) | 18 (8.26%) | 15 (6.88%) |
WORK OF ART | 419 | 335 (79.95%) | 38 (9.07%) | 46 (10.98%) |
各个分区的领域和来源分布情况如下表所示:
Domain | Source | Full | Train | Dev | Test |
---|---|---|---|---|---|
Conversation | Europa Parlamentet | 206 | 173 | 17 | 16 |
Conversation | Folketinget | 23 | 21 | 1 | 1 |
Conversation | NAAT | 554 | 431 | 50 | 73 |
Conversation | OpenSubtitles | 377 | 300 | 39 | 38 |
Conversation | Spontaneous speech | 489 | 395 | 54 | 40 |
Dannet | Dannet | 25 | 18 | 4 | 3 |
Legal | Retsinformation.dk | 965 | 747 | 105 | 113 |
Legal | Skat.dk | 471 | 364 | 53 | 54 |
Legal | Retspraktis | 727 | 579 | 76 | 72 |
News | DanAvis | 283 | 236 | 20 | 27 |
News | TV2R | 138 | 110 | 16 | 12 |
Social Media | hestenettet.dk | 554 | 439 | 51 | 64 |
Web | Common Crawl | 8270 | 6661 | 826 | 783 |
Wiki & Books | adl | 640 | 517 | 57 | 66 |
Wiki & Books | Wikipedia | 279 | 208 | 30 | 41 |
Wiki & Books | WikiBooks | 335 | 265 | 36 | 34 |
Wiki & Books | WikiSource | 455 | 371 | 43 | 41 |
训练集的领域和命名实体分布情况如下所示:
All domains combined | Conversation | Dannet | Legal | News | Social Media | Web | Wiki and Books | |
---|---|---|---|---|---|---|---|---|
DOCS | 12062 | 1320 | 18 | 1690 | 346 | 439 | 6661 | 1361 |
ENTS | 11638 | 1060 | 15 | 1292 | 419 | 270 | 7502 | 883 |
CARDINAL | 1702 | 346 | 6 | 95 | 35 | 17 | 1144 | 59 |
DATE | 1411 | 113 | 5 | 257 | 40 | 29 | 831 | 126 |
EVENT | 175 | 43 | 0 | 1 | 9 | 3 | 106 | 8 |
FACILITY | 200 | 2 | 0 | 4 | 18 | 3 | 159 | 10 |
GPE | 1276 | 130 | 2 | 60 | 68 | 31 | 846 | 128 |
LANGUAGE | 53 | 3 | 0 | 0 | 0 | 0 | 34 | 16 |
LAW | 148 | 10 | 0 | 100 | 1 | 0 | 22 | 13 |
LOCATION | 351 | 18 | 0 | 1 | 7 | 7 | 288 | 29 |
MONEY | 566 | 1 | 0 | 62 | 13 | 18 | 472 | 0 |
NORP | 405 | 70 | 0 | 61 | 22 | 1 | 188 | 42 |
ORDINAL | 105 | 11 | 0 | 17 | 9 | 2 | 43 | 22 |
ORGANIZATION | 1960 | 87 | 0 | 400 | 61 | 39 | 1303 | 58 |
PERCENT | 123 | 5 | 0 | 10 | 11 | 0 | 91 | 4 |
PERSON | 1767 | 189 | 2 | 194 | 101 | 69 | 970 | 121 |
PRODUCT | 634 | 3 | 0 | 10 | 2 | 33 | 581 | 3 |
QUANTITY | 242 | 1 | 0 | 9 | 6 | 17 | 188 | 20 |
TIME | 185 | 16 | 0 | 5 | 13 | 1 | 144 | 6 |
WORK OF ART | 335 | 12 | 0 | 6 | 3 | 0 | 92 | 218 |
验证集的领域和命名实体分布情况如下所示:
Sum | Conversation | Dannet | Legal | News | Social Media | Web | Wiki | |
---|---|---|---|---|---|---|---|---|
DOCS | 1500 | 161 | 4 | 234 | 36 | 51 | 826 | 166 |
ENTS | 1497 | 110 | 4 | 171 | 43 | 30 | 983 | 143 |
CARDINAL | 226 | 41 | 2 | 19 | 7 | 5 | 139 | 13 |
DATE | 163 | 11 | 0 | 27 | 6 | 4 | 89 | 26 |
EVENT | 17 | 2 | 0 | 0 | 1 | 0 | 13 | 1 |
FACILITY | 21 | 1 | 0 | 0 | 0 | 0 | 16 | 4 |
GPE | 193 | 17 | 1 | 8 | 7 | 2 | 131 | 25 |
LANGUAGE | 56 | 0 | 0 | 0 | 0 | 0 | 50 | 6 |
LAW | 18 | 2 | 0 | 8 | 0 | 0 | 8 | 0 |
LOCATION | 27 | 2 | 0 | 1 | 0 | 0 | 21 | 3 |
MONEY | 76 | 2 | 0 | 9 | 1 | 6 | 58 | 0 |
NORP | 49 | 8 | 0 | 8 | 1 | 2 | 21 | 9 |
ORDINAL | 11 | 2 | 0 | 2 | 0 | 1 | 3 | 3 |
ORGANIZATION | 298 | 6 | 0 | 68 | 5 | 3 | 212 | 4 |
PERCENT | 12 | 0 | 0 | 2 | 0 | 0 | 10 | 0 |
PERSON | 175 | 16 | 1 | 16 | 11 | 4 | 96 | 20 |
PRODUCT | 72 | 0 | 0 | 0 | 0 | 2 | 69 | 1 |
QUANTITY | 22 | 0 | 0 | 1 | 2 | 1 | 17 | 1 |
TIME | 15 | 0 | 0 | 0 | 2 | 0 | 13 | 0 |
WORK OF ART | 46 | 0 | 0 | 2 | 0 | 0 | 17 | 27 |
测试集的领域和命名实体分布情况如下所示:
Sum | Conversation | Dannet | Legal | News | Social Media | Web | Wiki | |
---|---|---|---|---|---|---|---|---|
DOCS | 1500 | 161 | 4 | 234 | 36 | 51 | 826 | 166 |
ENTS | 1497 | 110 | 4 | 171 | 43 | 30 | 983 | 143 |
CARDINAL | 226 | 41 | 2 | 19 | 7 | 5 | 139 | 13 |
DATE | 163 | 11 | 0 | 27 | 6 | 4 | 89 | 26 |
EVENT | 17 | 2 | 0 | 0 | 1 | 0 | 13 | 1 |
FACILITY | 21 | 1 | 0 | 0 | 0 | 0 | 16 | 4 |
GPE | 193 | 17 | 1 | 8 | 7 | 2 | 131 | 25 |
LANGUAGE | 56 | 0 | 0 | 0 | 0 | 0 | 50 | 6 |
LAW | 18 | 2 | 0 | 8 | 0 | 0 | 8 | 0 |
LOCATION | 27 | 2 | 0 | 1 | 0 | 0 | 21 | 3 |
MONEY | 76 | 2 | 0 | 9 | 1 | 6 | 58 | 0 |
NORP | 49 | 8 | 0 | 8 | 1 | 2 | 21 | 9 |
ORDINAL | 11 | 2 | 0 | 2 | 0 | 1 | 3 | 3 |
ORGANIZATION | 298 | 6 | 0 | 68 | 5 | 3 | 212 | 4 |
PERCENT | 12 | 0 | 0 | 2 | 0 | 0 | 10 | 0 |
PERSON | 175 | 16 | 1 | 16 | 11 | 4 | 96 | 20 |
PRODUCT | 72 | 0 | 0 | 0 | 0 | 2 | 69 | 1 |
QUANTITY | 22 | 0 | 0 | 1 | 2 | 1 | 17 | 1 |
TIME | 15 | 0 | 0 | 0 | 2 | 0 | 13 | 0 |
WORK OF ART | 46 | 0 | 0 | 2 | 0 | 0 | 17 | 27 |
该数据集旨在填补丹麦NLP领域的空白,目前尚缺乏具有以下两个特点的数据集:1)细粒度的命名实体识别标签;2)文本领域来源的高变异性。因此,DANSK数据集可用于训练任何希望创建能够在领域间泛化且预测精细的NER模型的人员。它还可以用于评估跨领域评估,以揭示任何潜在的领域偏差。尽管目前该数据集仅包含命名实体的注释,但未来版本的数据集将包含依赖解析、词性标注和可能的修订的NER注释。
数据的收集、注释和规范化步骤是非常广泛的。由于此自述文件的描述过长,请在相关论文发表后参考该论文以获取完整说明。
初始数据收集和规范化为了实现高细粒度度,DANSK数据集采用了OntoNotes 5.0的注释标准。该标准包括18种不同的命名实体类型。完整描述可见相关论文。
注释者是谁?从奥胡斯大学的英语语言学硕士专业招募了10名学生。他们每周工作10小时,从2021年10月11日到2021年11月22日共计工作了6周。他们的注释任务包括词性标注、依赖解析和NER注释。命名实体注释和依赖解析是从头开始完成的,而词性标注则包括对NLP模型的银标准预测的更正。
从奥胡斯大学的英语语言学硕士专业招募了10名学生。他们每周工作10小时,从2021年10月11日到2021年11月22日共计工作了6周。他们的注释任务包括词性标注、依赖解析和NER注释。注释者的补偿按照丹麦财政部和教师中央组织以及2010年CO10中央组织(CO10联合协议)的集体协议确定的学生标准费率计算,为每小时140丹麦克朗。命名实体注释和依赖解析是从头开始完成的,而词性标注则涉及对NLP模型预测的更正。
在注释的手动更正过程中,发现了一些一致性错误。采用以下正则表达式模式对其进行了更正(也请参考OntoNotes注释指南的丹麦补充):
正则表达式模式用于匹配时间范围,例如[16:30 - 17:30](TIME):
\d{1,2}:\d\d ?[-|\||\/] ?\d dag: \d{1,2}
用于匹配日期范围,例如[1938 - 1992](DATE):
\d{2,4} ?[-|–] ?\d{2,4}
用于匹配包含A/S og ApS的公司:
e.g. [Hansens Skomager A/S] (ORGANIZATION): ApS A\/S
用于匹配书面数字,例如"en":
to | to$|^to| To | To$|^To| TO | TO$|^TO| tre | tre$|^tre| Tre | Tre$|^Tre| TRE | TRE$|^TRE| fire | fire$|^fire| Fire | Fire$|^Fire| FIRE | FIRE$|^FIRE| fem | fem$|^fem| Fem | Fem$|^Fem| FEM | FEM$|^FEM| seks | seks$|^seks| Seks | Seks$|^Seks| SEKS | SEKS$| ^SYV| otte | otte$|^otte| Otte | Otte$|^Otte| OTTE | OTTE$|^OTTE| ni | ni$|^ni| Ni | Ni$|^Ni| NI | NI$|^NI| ti | ti$|^ti| Ti | Ti$|^Ti| TI | TI$|^TI
用于匹配已标注为LOCATION的"Himlen"或"Himmelen",例如"HIMLEN":
[Hh][iI][mM][lL][Ee][Nn]|[Hh][iI][mM][mM][Ee][lL][Ee][Nn]
用于匹配已标注为PERSON的"Gud",例如"GUD":
[Gg][Uu][Dd]
用于匹配错误标记为CARDINAL的电话号码,例如"20 40 44 30":
\d{2} \d{2} \d{2} \d{2} \+\d{2} \d{2} ?\d{2} ?\d{2} ?\d{2}$ \+\d{2} \d{2} ?\d{2} ?\d{2} ?\d{2}$ \d{4} ?\d{4}$ ^\d{4} ?\d{4}$
用于匹配已错误标记为ORGANIZATION的网站:
.dk$|.com$
用于匹配错误标记为ORGANIZATION的酒店和度假村:
.*[h|H]otel.*|.*[R|r]esort.*
用于匹配包含/或:的数字,已错误标记为CARDINAL:
\/ \/ -
用于匹配已错误标记为LAW的权利:
[C|c]opyright [®|©] [f|F]ortrydelsesret [o|O]phavsret$ enneskeret
创作共用署名-相同方式共享4.0国际许可协议
该论文正在进行中。