chcaa/DANSK | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

数据集:

chcaa/DANSK

语言:

数据集介绍文件清单

英文

数据集概述

DANSK（Danish Annotations for NLP Specific TasKs）数据集是一个包含来自多个领域的文本的数据集，从丹麦GigaWord语料库（DAGW）中采样而来。该数据集的创建是为了填补丹麦NLP数据集在不同领域上的空白，以便训练能够跨领域泛化的模型。命名实体的注释是细粒度的，并且与OntoNotes v5的形式相似，这极大地扩展了数据集的用途。领域包括Web、新闻、维基百科、图书、法律、Dannet、会话和社交媒体。有关领域的更详细了解，请参阅 DAGW 。

在下表中可以看到每个领域内的文本和命名实体的分布情况：

更新日志

2023年5月26日：添加了每个注释者的单独注释，以便进行注释者间一致性分析

支持的任务

DANSK数据集目前仅支持命名实体识别，但将在以后的版本发布中包含更多任务的数据。

语言

数据集中的所有文本均为丹麦语。可能会出现来自各种平台或方言的俚语，与原始采样文本的领域相关 - 例如社交媒体。

数据集结构

数据实例

JSON格式的数据的形式如下所示：

{
    "text": "Aborrer over 2 kg er en uhyre sj\u00e6lden fangst.",
    "ents": [{"start": 13, "end": 17, "label": "QUANTITY"}],
    "sents": [{"start": 0, "end": 45}],
    "tokens": [
        {"id": 0, "start": 0, "end": 7},
        {"id": 1, "start": 8, "end": 12},
        {"id": 2, "start": 13, "end": 14},
        {"id": 3, "start": 15, "end": 17},
        {"id": 4, "start": 18, "end": 20},
        {"id": 5, "start": 21, "end": 23},
        {"id": 6, "start": 24, "end": 29},
        {"id": 7, "start": 30, "end": 37},
        {"id": 8, "start": 38, "end": 44},
        {"id": 9, "start": 44, "end": 45},
    ],
    "spans": {"incorrect_spans": []},
    "dagw_source": "wiki",
    "dagw_domain": "Wiki & Books",
    "dagw_source_full": "Wikipedia",
}

数据字段

text：文本内容
ents：标注的实体
sents：文本中的句子
dagw_source：文本采样自丹麦Gigaword语料库中的来源简称
dagw_source_full：文本采样自丹麦Gigaword语料库中的来源全称
dagw_domain：来源所属的领域名称

数据拆分

数据随机分为三个不同的部分：训练集、开发集和测试集。这些分割来自同一数据集，因此集合之间没有基本差异。有关不同分区的命名实体和领域的分布情况，请参考论文，或阅读此标记中提供的表面统计数据。

描述性统计

数据集组成

各个分区的命名实体注释组成如下表所示：

Full	Train	Validation	Test
Texts	15062	12062 (80%)	1500 (10%)	1500 (10%)
Named entities	14462	11638 (80.47%)	1327 (9.18%)	1497 (10.25%)
CARDINAL	2069	1702 (82.26%)	168 (8.12%)	226 (10.92%)
DATE	1756	1411 (80.35%)	182 (10.36%)	163 (9.28%)
EVENT	211	175 (82.94%)	19 (9.00%)	17 (8.06%)
FACILITY	246	200 (81.30%)	25 (10.16%)	21 (8.54%)
GPE	1604	1276 (79.55%)	135 (8.42%)	193 (12.03%)
LANGUAGE	126	53 (42.06%)	17 (13.49%)	56 (44.44%)
LAW	183	148 (80.87%)	17 (9.29%)	18 (9.84%)
LOCATION	424	351 (82.78%)	46 (10.85%)	27 (6.37%)
MONEY	714	566 (79.27%)	72 (10.08%)	76 (10.64%)
NORP	495	405 (81.82%)	41 (8.28%)	49 (9.90%)
ORDINAL	127	105 (82.68%)	11 (8.66%)	11 (8.66%)
ORGANIZATION	2507	1960 (78.18%)	249 (9.93%)	298 (11.87%)
PERCENT	148	123 (83.11%)	13 (8.78%)	12 (8.11%)
PERSON	2133	1767 (82.84%)	191 (8.95%)	175 (8.20%)
PRODUCT	763	634 (83.09%)	57 (7.47%)	72 (9.44%)
QUANTITY	292	242 (82.88%)	28 (9.59%)	22 (7.53%)
TIME	218	185 (84.86%)	18 (8.26%)	15 (6.88%)
WORK OF ART	419	335 (79.95%)	38 (9.07%)	46 (10.98%)

领域分布

各个分区的领域和来源分布情况如下表所示：

Domain	Source	Full	Train	Dev	Test
Conversation	Europa Parlamentet	206	173	17	16
Conversation	Folketinget	23	21	1	1
Conversation	NAAT	554	431	50	73
Conversation	OpenSubtitles	377	300	39	38
Conversation	Spontaneous speech	489	395	54	40
Dannet	Dannet	25	18	4	3
Legal	Retsinformation.dk	965	747	105	113
Legal	Skat.dk	471	364	53	54
Legal	Retspraktis	727	579	76	72
News	DanAvis	283	236	20	27
News	TV2R	138	110	16	12
Social Media	hestenettet.dk	554	439	51	64
Web	Common Crawl	8270	6661	826	783
Wiki & Books	adl	640	517	57	66
Wiki & Books	Wikipedia	279	208	30	41
Wiki & Books	WikiBooks	335	265	36	34
Wiki & Books	WikiSource	455	371	43	41

分区中的实体分布

训练集的领域和命名实体分布情况如下所示：

All domains combined	Conversation	Dannet	Legal	News	Social Media	Web	Wiki and Books
DOCS	12062	1320	18	1690	346	439	6661	1361
ENTS	11638	1060	15	1292	419	270	7502	883
CARDINAL	1702	346	6	95	35	17	1144	59
DATE	1411	113	5	257	40	29	831	126
EVENT	175	43	0	1	9	3	106	8
FACILITY	200	2	0	4	18	3	159	10
GPE	1276	130	2	60	68	31	846	128
LANGUAGE	53	3	0	0	0	0	34	16
LAW	148	10	0	100	1	0	22	13
LOCATION	351	18	0	1	7	7	288	29
MONEY	566	1	0	62	13	18	472	0
NORP	405	70	0	61	22	1	188	42
ORDINAL	105	11	0	17	9	2	43	22
ORGANIZATION	1960	87	0	400	61	39	1303	58
PERCENT	123	5	0	10	11	0	91	4
PERSON	1767	189	2	194	101	69	970	121
PRODUCT	634	3	0	10	2	33	581	3
QUANTITY	242	1	0	9	6	17	188	20
TIME	185	16	0	5	13	1	144	6
WORK OF ART	335	12	0	6	3	0	92	218

验证集的领域和命名实体分布情况如下所示：

Sum	Conversation	Dannet	Legal	News	Social Media	Web	Wiki
DOCS	1500	161	4	234	36	51	826	166
ENTS	1497	110	4	171	43	30	983	143
CARDINAL	226	41	2	19	7	5	139	13
DATE	163	11	0	27	6	4	89	26
EVENT	17	2	0	0	1	0	13	1
FACILITY	21	1	0	0	0	0	16	4
GPE	193	17	1	8	7	2	131	25
LANGUAGE	56	0	0	0	0	0	50	6
LAW	18	2	0	8	0	0	8	0
LOCATION	27	2	0	1	0	0	21	3
MONEY	76	2	0	9	1	6	58	0
NORP	49	8	0	8	1	2	21	9
ORDINAL	11	2	0	2	0	1	3	3
ORGANIZATION	298	6	0	68	5	3	212	4
PERCENT	12	0	0	2	0	0	10	0
PERSON	175	16	1	16	11	4	96	20
PRODUCT	72	0	0	0	0	2	69	1
QUANTITY	22	0	0	1	2	1	17	1
TIME	15	0	0	0	2	0	13	0
WORK OF ART	46	0	0	2	0	0	17	27

测试集的领域和命名实体分布情况如下所示：

Sum	Conversation	Dannet	Legal	News	Social Media	Web	Wiki
DOCS	1500	161	4	234	36	51	826	166
ENTS	1497	110	4	171	43	30	983	143
CARDINAL	226	41	2	19	7	5	139	13
DATE	163	11	0	27	6	4	89	26
EVENT	17	2	0	0	1	0	13	1
FACILITY	21	1	0	0	0	0	16	4
GPE	193	17	1	8	7	2	131	25
LANGUAGE	56	0	0	0	0	0	50	6
LAW	18	2	0	8	0	0	8	0
LOCATION	27	2	0	1	0	0	21	3
MONEY	76	2	0	9	1	6	58	0
NORP	49	8	0	8	1	2	21	9
ORDINAL	11	2	0	2	0	1	3	3
ORGANIZATION	298	6	0	68	5	3	212	4
PERCENT	12	0	0	2	0	0	10	0
PERSON	175	16	1	16	11	4	96	20
PRODUCT	72	0	0	0	0	2	69	1
QUANTITY	22	0	0	1	2	1	17	1
TIME	15	0	0	0	2	0	13	0
WORK OF ART	46	0	0	2	0	0	17	27

数据集创建

策划原理

该数据集旨在填补丹麦NLP领域的空白，目前尚缺乏具有以下两个特点的数据集：1）细粒度的命名实体识别标签；2）文本领域来源的高变异性。因此，DANSK数据集可用于训练任何希望创建能够在领域间泛化且预测精细的NER模型的人员。它还可以用于评估跨领域评估，以揭示任何潜在的领域偏差。尽管目前该数据集仅包含命名实体的注释，但未来版本的数据集将包含依赖解析、词性标注和可能的修订的NER注释。

数据来源

数据的收集、注释和规范化步骤是非常广泛的。由于此自述文件的描述过长，请在相关论文发表后参考该论文以获取完整说明。

初始数据收集和规范化

注释

注释过程

为了实现高细粒度度，DANSK数据集采用了OntoNotes 5.0的注释标准。该标准包括18种不同的命名实体类型。完整描述可见相关论文。

注释者是谁？

从奥胡斯大学的英语语言学硕士专业招募了10名学生。他们每周工作10小时，从2021年10月11日到2021年11月22日共计工作了6周。他们的注释任务包括词性标注、依赖解析和NER注释。命名实体注释和依赖解析是从头开始完成的，而词性标注则包括对NLP模型的银标准预测的更正。

注释者补偿

从奥胡斯大学的英语语言学硕士专业招募了10名学生。他们每周工作10小时，从2021年10月11日到2021年11月22日共计工作了6周。他们的注释任务包括词性标注、依赖解析和NER注释。注释者的补偿按照丹麦财政部和教师中央组织以及2010年CO10中央组织（CO10联合协议）的集体协议确定的学生标准费率计算，为每小时140丹麦克朗。命名实体注释和依赖解析是从头开始完成的，而词性标注则涉及对NLP模型预测的更正。

自动更正

在注释的手动更正过程中，发现了一些一致性错误。采用以下正则表达式模式对其进行了更正（也请参考OntoNotes注释指南的丹麦补充）：

正则表达式模式

用于匹配时间范围，例如[16:30 - 17:30]（TIME）：

\d{1,2}:\d\d ?[-|\||\/] ?\d
dag: \d{1,2}

用于匹配日期范围，例如[1938 - 1992]（DATE）：

\d{2,4} ?[-|–] ?\d{2,4}

用于匹配包含A/S og ApS的公司：

e.g. [Hansens Skomager A/S] (ORGANIZATION):
ApS
A\/S

用于匹配书面数字，例如"en"：

to | to$|^to| To | To$|^To| TO | TO$|^TO|
tre | tre$|^tre| Tre | Tre$|^Tre| TRE | TRE$|^TRE|
fire | fire$|^fire| Fire | Fire$|^Fire| FIRE | FIRE$|^FIRE|
fem | fem$|^fem| Fem | Fem$|^Fem| FEM | FEM$|^FEM|
seks | seks$|^seks| Seks | Seks$|^Seks| SEKS | SEKS$|
^SYV|
otte | otte$|^otte| Otte | Otte$|^Otte| OTTE | OTTE$|^OTTE|
ni | ni$|^ni| Ni | Ni$|^Ni| NI | NI$|^NI|
ti | ti$|^ti| Ti | Ti$|^Ti| TI | TI$|^TI

用于匹配已标注为LOCATION的"Himlen"或"Himmelen"，例如"HIMLEN"：

[Hh][iI][mM][lL][Ee][Nn]|[Hh][iI][mM][mM][Ee][lL][Ee][Nn]

用于匹配已标注为PERSON的"Gud"，例如"GUD"：

[Gg][Uu][Dd]

用于匹配错误标记为CARDINAL的电话号码，例如"20 40 44 30"：

\d{2} \d{2} \d{2} \d{2}
\+\d{2} \d{2} ?\d{2} ?\d{2} ?\d{2}$
\+\d{2} \d{2} ?\d{2} ?\d{2} ?\d{2}$
 \d{4} ?\d{4}$
^\d{4} ?\d{4}$

用于匹配已错误标记为ORGANIZATION的网站：

.dk$|.com$

用于匹配错误标记为ORGANIZATION的酒店和度假村：

.*[h|H]otel.*|.*[R|r]esort.*

用于匹配包含/或:的数字，已错误标记为CARDINAL：

\/
\/
 
-

用于匹配已错误标记为LAW的权利：

[C|c]opyright
[®|©]
[f|F]ortrydelsesret
[o|O]phavsret$
enneskeret

许可信息

创作共用署名-相同方式共享4.0国际许可协议

引用信息

该论文正在进行中。

作者:

chcaa

数据集大小:

33 MB