数据集:

chcaa/DANSK

语言:

da
英文

数据集概述

DANSK(Danish Annotations for NLP Specific TasKs)数据集是一个包含来自多个领域的文本的数据集,从丹麦GigaWord语料库(DAGW)中采样而来。该数据集的创建是为了填补丹麦NLP数据集在不同领域上的空白,以便训练能够跨领域泛化的模型。命名实体的注释是细粒度的,并且与OntoNotes v5的形式相似,这极大地扩展了数据集的用途。 领域包括Web、新闻、维基百科、图书、法律、Dannet、会话和社交媒体。有关领域的更详细了解,请参阅 DAGW

在下表中可以看到每个领域内的文本和命名实体的分布情况:

更新日志

  • 2023年5月26日:添加了每个注释者的单独注释,以便进行注释者间一致性分析

支持的任务

DANSK数据集目前仅支持命名实体识别,但将在以后的版本发布中包含更多任务的数据。

语言

数据集中的所有文本均为丹麦语。可能会出现来自各种平台或方言的俚语,与原始采样文本的领域相关 - 例如社交媒体。

数据集结构

数据实例

JSON格式的数据的形式如下所示:

{
    "text": "Aborrer over 2 kg er en uhyre sj\u00e6lden fangst.",
    "ents": [{"start": 13, "end": 17, "label": "QUANTITY"}],
    "sents": [{"start": 0, "end": 45}],
    "tokens": [
        {"id": 0, "start": 0, "end": 7},
        {"id": 1, "start": 8, "end": 12},
        {"id": 2, "start": 13, "end": 14},
        {"id": 3, "start": 15, "end": 17},
        {"id": 4, "start": 18, "end": 20},
        {"id": 5, "start": 21, "end": 23},
        {"id": 6, "start": 24, "end": 29},
        {"id": 7, "start": 30, "end": 37},
        {"id": 8, "start": 38, "end": 44},
        {"id": 9, "start": 44, "end": 45},
    ],
    "spans": {"incorrect_spans": []},
    "dagw_source": "wiki",
    "dagw_domain": "Wiki & Books",
    "dagw_source_full": "Wikipedia",
}

数据字段

  • text:文本内容
  • ents:标注的实体
  • sents:文本中的句子
  • dagw_source:文本采样自丹麦Gigaword语料库中的来源简称
  • dagw_source_full:文本采样自丹麦Gigaword语料库中的来源全称
  • dagw_domain:来源所属的领域名称

数据拆分

数据随机分为三个不同的部分:训练集、开发集和测试集。这些分割来自同一数据集,因此集合之间没有基本差异。有关不同分区的命名实体和领域的分布情况,请参考论文,或阅读此标记中提供的表面统计数据。

描述性统计

数据集组成

各个分区的命名实体注释组成如下表所示:

Full Train Validation Test
Texts 15062 12062 (80%) 1500 (10%) 1500 (10%)
Named entities 14462 11638 (80.47%) 1327 (9.18%) 1497 (10.25%)
CARDINAL 2069 1702 (82.26%) 168 (8.12%) 226 (10.92%)
DATE 1756 1411 (80.35%) 182 (10.36%) 163 (9.28%)
EVENT 211 175 (82.94%) 19 (9.00%) 17 (8.06%)
FACILITY 246 200 (81.30%) 25 (10.16%) 21 (8.54%)
GPE 1604 1276 (79.55%) 135 (8.42%) 193 (12.03%)
LANGUAGE 126 53 (42.06%) 17 (13.49%) 56 (44.44%)
LAW 183 148 (80.87%) 17 (9.29%) 18 (9.84%)
LOCATION 424 351 (82.78%) 46 (10.85%) 27 (6.37%)
MONEY 714 566 (79.27%) 72 (10.08%) 76 (10.64%)
NORP 495 405 (81.82%) 41 (8.28%) 49 (9.90%)
ORDINAL 127 105 (82.68%) 11 (8.66%) 11 (8.66%)
ORGANIZATION 2507 1960 (78.18%) 249 (9.93%) 298 (11.87%)
PERCENT 148 123 (83.11%) 13 (8.78%) 12 (8.11%)
PERSON 2133 1767 (82.84%) 191 (8.95%) 175 (8.20%)
PRODUCT 763 634 (83.09%) 57 (7.47%) 72 (9.44%)
QUANTITY 292 242 (82.88%) 28 (9.59%) 22 (7.53%)
TIME 218 185 (84.86%) 18 (8.26%) 15 (6.88%)
WORK OF ART 419 335 (79.95%) 38 (9.07%) 46 (10.98%)

领域分布

各个分区的领域和来源分布情况如下表所示:

Domain Source Full Train Dev Test
Conversation Europa Parlamentet 206 173 17 16
Conversation Folketinget 23 21 1 1
Conversation NAAT 554 431 50 73
Conversation OpenSubtitles 377 300 39 38
Conversation Spontaneous speech 489 395 54 40
Dannet Dannet 25 18 4 3
Legal Retsinformation.dk 965 747 105 113
Legal Skat.dk 471 364 53 54
Legal Retspraktis 727 579 76 72
News DanAvis 283 236 20 27
News TV2R 138 110 16 12
Social Media hestenettet.dk 554 439 51 64
Web Common Crawl 8270 6661 826 783
Wiki & Books adl 640 517 57 66
Wiki & Books Wikipedia 279 208 30 41
Wiki & Books WikiBooks 335 265 36 34
Wiki & Books WikiSource 455 371 43 41

分区中的实体分布

训练集的领域和命名实体分布情况如下所示:

All domains combined Conversation Dannet Legal News Social Media Web Wiki and Books
DOCS 12062 1320 18 1690 346 439 6661 1361
ENTS 11638 1060 15 1292 419 270 7502 883
CARDINAL 1702 346 6 95 35 17 1144 59
DATE 1411 113 5 257 40 29 831 126
EVENT 175 43 0 1 9 3 106 8
FACILITY 200 2 0 4 18 3 159 10
GPE 1276 130 2 60 68 31 846 128
LANGUAGE 53 3 0 0 0 0 34 16
LAW 148 10 0 100 1 0 22 13
LOCATION 351 18 0 1 7 7 288 29
MONEY 566 1 0 62 13 18 472 0
NORP 405 70 0 61 22 1 188 42
ORDINAL 105 11 0 17 9 2 43 22
ORGANIZATION 1960 87 0 400 61 39 1303 58
PERCENT 123 5 0 10 11 0 91 4
PERSON 1767 189 2 194 101 69 970 121
PRODUCT 634 3 0 10 2 33 581 3
QUANTITY 242 1 0 9 6 17 188 20
TIME 185 16 0 5 13 1 144 6
WORK OF ART 335 12 0 6 3 0 92 218

验证集的领域和命名实体分布情况如下所示:

Sum Conversation Dannet Legal News Social Media Web Wiki
DOCS 1500 161 4 234 36 51 826 166
ENTS 1497 110 4 171 43 30 983 143
CARDINAL 226 41 2 19 7 5 139 13
DATE 163 11 0 27 6 4 89 26
EVENT 17 2 0 0 1 0 13 1
FACILITY 21 1 0 0 0 0 16 4
GPE 193 17 1 8 7 2 131 25
LANGUAGE 56 0 0 0 0 0 50 6
LAW 18 2 0 8 0 0 8 0
LOCATION 27 2 0 1 0 0 21 3
MONEY 76 2 0 9 1 6 58 0
NORP 49 8 0 8 1 2 21 9
ORDINAL 11 2 0 2 0 1 3 3
ORGANIZATION 298 6 0 68 5 3 212 4
PERCENT 12 0 0 2 0 0 10 0
PERSON 175 16 1 16 11 4 96 20
PRODUCT 72 0 0 0 0 2 69 1
QUANTITY 22 0 0 1 2 1 17 1
TIME 15 0 0 0 2 0 13 0
WORK OF ART 46 0 0 2 0 0 17 27

测试集的领域和命名实体分布情况如下所示:

Sum Conversation Dannet Legal News Social Media Web Wiki
DOCS 1500 161 4 234 36 51 826 166
ENTS 1497 110 4 171 43 30 983 143
CARDINAL 226 41 2 19 7 5 139 13
DATE 163 11 0 27 6 4 89 26
EVENT 17 2 0 0 1 0 13 1
FACILITY 21 1 0 0 0 0 16 4
GPE 193 17 1 8 7 2 131 25
LANGUAGE 56 0 0 0 0 0 50 6
LAW 18 2 0 8 0 0 8 0
LOCATION 27 2 0 1 0 0 21 3
MONEY 76 2 0 9 1 6 58 0
NORP 49 8 0 8 1 2 21 9
ORDINAL 11 2 0 2 0 1 3 3
ORGANIZATION 298 6 0 68 5 3 212 4
PERCENT 12 0 0 2 0 0 10 0
PERSON 175 16 1 16 11 4 96 20
PRODUCT 72 0 0 0 0 2 69 1
QUANTITY 22 0 0 1 2 1 17 1
TIME 15 0 0 0 2 0 13 0
WORK OF ART 46 0 0 2 0 0 17 27

数据集创建

策划原理

该数据集旨在填补丹麦NLP领域的空白,目前尚缺乏具有以下两个特点的数据集:1)细粒度的命名实体识别标签;2)文本领域来源的高变异性。因此,DANSK数据集可用于训练任何希望创建能够在领域间泛化且预测精细的NER模型的人员。它还可以用于评估跨领域评估,以揭示任何潜在的领域偏差。尽管目前该数据集仅包含命名实体的注释,但未来版本的数据集将包含依赖解析、词性标注和可能的修订的NER注释。

数据来源

数据的收集、注释和规范化步骤是非常广泛的。由于此自述文件的描述过长,请在相关论文发表后参考该论文以获取完整说明。

初始数据收集和规范化

注释

注释过程

为了实现高细粒度度,DANSK数据集采用了OntoNotes 5.0的注释标准。该标准包括18种不同的命名实体类型。完整描述可见相关论文。

注释者是谁?

从奥胡斯大学的英语语言学硕士专业招募了10名学生。他们每周工作10小时,从2021年10月11日到2021年11月22日共计工作了6周。他们的注释任务包括词性标注、依赖解析和NER注释。命名实体注释和依赖解析是从头开始完成的,而词性标注则包括对NLP模型的银标准预测的更正。

注释者补偿

从奥胡斯大学的英语语言学硕士专业招募了10名学生。他们每周工作10小时,从2021年10月11日到2021年11月22日共计工作了6周。他们的注释任务包括词性标注、依赖解析和NER注释。注释者的补偿按照丹麦财政部和教师中央组织以及2010年CO10中央组织(CO10联合协议)的集体协议确定的学生标准费率计算,为每小时140丹麦克朗。命名实体注释和依赖解析是从头开始完成的,而词性标注则涉及对NLP模型预测的更正。

自动更正

在注释的手动更正过程中,发现了一些一致性错误。采用以下正则表达式模式对其进行了更正(也请参考OntoNotes注释指南的丹麦补充):

正则表达式模式

用于匹配时间范围,例如[16:30 - 17:30](TIME):

\d{1,2}:\d\d ?[-|\||\/] ?\d
dag: \d{1,2}

用于匹配日期范围,例如[1938 - 1992](DATE):

\d{2,4} ?[-|–] ?\d{2,4}

用于匹配包含A/S og ApS的公司:

e.g. [Hansens Skomager A/S] (ORGANIZATION):
ApS
A\/S

用于匹配书面数字,例如"en":

to | to$|^to| To | To$|^To| TO | TO$|^TO|
tre | tre$|^tre| Tre | Tre$|^Tre| TRE | TRE$|^TRE|
fire | fire$|^fire| Fire | Fire$|^Fire| FIRE | FIRE$|^FIRE|
fem | fem$|^fem| Fem | Fem$|^Fem| FEM | FEM$|^FEM|
seks | seks$|^seks| Seks | Seks$|^Seks| SEKS | SEKS$|
^SYV|
otte | otte$|^otte| Otte | Otte$|^Otte| OTTE | OTTE$|^OTTE|
ni | ni$|^ni| Ni | Ni$|^Ni| NI | NI$|^NI|
ti | ti$|^ti| Ti | Ti$|^Ti| TI | TI$|^TI

用于匹配已标注为LOCATION的"Himlen"或"Himmelen",例如"HIMLEN":

[Hh][iI][mM][lL][Ee][Nn]|[Hh][iI][mM][mM][Ee][lL][Ee][Nn]

用于匹配已标注为PERSON的"Gud",例如"GUD":

[Gg][Uu][Dd]

用于匹配错误标记为CARDINAL的电话号码,例如"20 40 44 30":

\d{2} \d{2} \d{2} \d{2}
\+\d{2} \d{2} ?\d{2} ?\d{2} ?\d{2}$
\+\d{2} \d{2} ?\d{2} ?\d{2} ?\d{2}$
 \d{4} ?\d{4}$
^\d{4} ?\d{4}$

用于匹配已错误标记为ORGANIZATION的网站:

.dk$|.com$

用于匹配错误标记为ORGANIZATION的酒店和度假村:

.*[h|H]otel.*|.*[R|r]esort.*

用于匹配包含/或:的数字,已错误标记为CARDINAL:

\/
\/
 
-

用于匹配已错误标记为LAW的权利:

[C|c]opyright
[®|©]
[f|F]ortrydelsesret
[o|O]phavsret$
enneskeret

许可信息

创作共用署名-相同方式共享4.0国际许可协议

引用信息

该论文正在进行中。