数据集:

GEM/turku_hockey_data2text

语言:

fi

计算机处理:

unknown

语言创建人:

unknown

批注创建人:

expert-created

源数据集:

original
英文

GEM/turku_hockey_data2text数据集卡

主数据卡链接

主数据卡链接 GEM Website 上可以找到主数据卡.

数据集简介

这是一个芬兰的数据到文本数据集,输入是关于一场曲棍球比赛的结构化信息,输出是对比赛的描述。

您可以通过以下方式加载数据集:

import datasets
data = datasets.load_dataset('GEM/turku_hockey_data2text')

数据加载器可以在 here 找到.

网站

Website

论文

ACL anthology

作者

Jenna Kanerva, Samuel Rönnqvist, Riina Kekki, Tapio Salakoski, Filip Ginter (TurkuNLP / Turku大学)

数据集概述

数据和其文档的获取方式

网页

Website

下载

Github

论文

ACL anthology

BibTex
@inproceedings{kanerva2019newsgen,
  Title = {Template-free Data-to-Text Generation of Finnish Sports News},
  Author = {Jenna Kanerva and Samuel R{\"o}nnqvist and Riina Kekki and Tapio Salakoski and Filip Ginter},
  booktitle = {Proceedings of the 22nd Nordic Conference on Computational Linguistics (NoDaLiDa’19)},
  year={2019}
  }
联系人姓名

Jenna Kanerva, Filip Ginter

联系人邮箱

jmnybl@utu.fi, figint@utu.fi

有排行榜吗?

没有

语言和使用情况

是否多语言?

没有

覆盖的方言

书面标准语言

覆盖的语言

芬兰语

语言属于谁?

原始新闻文章是由专业记者撰写的。注释中提取的文本段可能与原文稍有编辑,在语料库的注释过程中进行了修改。

许可证

cc-by-nc-sa-4.0:创作共用署名-非商业性使用-相同方式共享4.0国际

使用目的

该数据集是为了评估在冰球报道领域中芬兰新闻生成的无模板机器学习方法而开发的基准。

主要任务

数据到文本

传达目标

根据给定的结构化数据描述一场冰球比赛的事件。

信用

策展组织类型

学术机构

策展组织

Turku大学

数据集创建者

Jenna Kanerva, Samuel Rönnqvist, Riina Kekki, Tapio Salakoski, Filip Ginter (TurkuNLP / Turku大学)

资助

该项目得到了谷歌数字新闻创新基金的支持。

谁将数据集添加到GEM中?

Jenna Kanerva, Filip Ginter (TurkuNLP / Turku大学)

数据集结构

数据字段

数据集由比赛构成,其中每个比赛都是一个事件列表。如果事件已经进行了注释(与新闻文章相对应的句子被找到),则包括 "text" 字段,其值不为空字符串("")。

对于每个比赛(dict),都有键 "gem_id"(字符串)、"id"(字符串)、"news_article"(字符串)和 "events"(列表)。

对于每个事件(dict),根据事件类型可用具有非空值的不同相关键(例如进球或处罚)。每个事件的强制键是 "event_id"(字符串)、"event_type"(字符串)、"text"(字符串,如果没有注释则为空字符串)和 "multi_reference"(布尔值)。与具体事件类型无关的键保持为空。

事件字典中相关的键是:

对于每个事件类型,相关的键如下: event_id: 事件的标识符,在游戏中是唯一的,但不是全局唯一的,按时间顺序排列(字符串) event_type: 事件的类型,可能的值为: "game result", "goal", "penalty" 或 "saves"(字符串) text: 事件的自然语言描述,如果不可用则为空字符串(字符串) multi_reference: 此事件是否引用描述多个事件的文本段?(布尔值)

其余的字段特定于事件类型。每个事件类型的相关字段如下:

比赛结果: event_id: 事件的标识符,在游戏中是唯一的,但不是全局唯一的,按时间顺序排列(字符串) event_type: 事件的类型(字符串) home_team: 主队的名称(字符串) guest_team: 客队的名称(字符串) score: 比赛的最终比分,形式为主队-客队(字符串) periods: 比赛各个时段的得分,每个得分形式为主队-客队(字符串列表) features: 其他特征,如加时赛胜利或点球大战(字符串列表) text: 事件的自然语言描述,如果不可用则为空字符串(字符串) multi_reference: 此事件是否引用描述多个事件的文本段?(布尔值)

进球: event_id: 事件的标识符,在游戏中是唯一的,但不是全局唯一的,按时间顺序排列(字符串) event_type: 事件的类型(字符串) player: 进球的球员姓名(字符串) assist: 助攻的球员姓名,最多两名球员(字符串列表) team: 进球的球队,可能的值为 "home" 或 "guest"(字符串) team_name: 进球的球队名称(字符串) score: 进球后的比分,形式为主队-客队(字符串) time: 进球时间,从比赛开始的分钟和秒数(字符串) features: 其他特征,如数人优势或短手进球(字符串列表) text: 事件的自然语言描述,如果不可用则为空字符串(字符串) multi_reference: 此事件是否引用描述多个事件的文本段?(布尔值)

处罚: event_id: 事件的标识符,在游戏中是唯一的,但不是全局唯一的,按时间顺序排列(字符串) event_type: 事件的类型(字符串) player: 接受处罚的球员姓名(字符串) team: 接受处罚的球队,可能的值为 "home" 或 "guest"(字符串) team_name: 接受处罚的球队名称(字符串) penalty_minutes: 处罚分钟数(字符串) time: 处罚时间,从比赛开始的分钟和秒数(字符串) text: 事件的自然语言描述,如果不可用则为空字符串(字符串) multi_reference: 此事件是否引用描述多个事件的文本段?(布尔值)

扑救: event_id: 事件的标识符,在游戏中是唯一的,但不是全局唯一的,按时间顺序排列(字符串) event_type: 事件的类型(字符串) player: 门将的姓名(字符串) team: 门将所在的球队,可能的值为 "home" 或 "guest"(字符串) team_name: 球队的名称(字符串) saves: 比赛中的扑救次数(字符串) text: 事件的自然语言描述,如果不可用则为空字符串(字符串) multi_reference: 此事件是否引用描述多个事件的文本段?(布尔值)

描述多个事件的文本段(multi_reference):

有些文本段是指多个事件,这样将它们分开成单独的陈述是不合适的(例如 "主队在第一节末接受了两次处罚。")。在这些情况下,多个事件与同一文本段对齐,以便第一个事件(按时间顺序)包含注释的文本段,而与同一文本段相关的其余事件在注释的文本字段中包括第一个事件的标识符(例如 text: "E4")。

示例实例
{
  'gem_id': 'gem-turku_hockey_data2text-train-0',
  'id': '20061031-TPS-HPK',
  'news_article': 'HPK:n hyvä syysvire jatkuu jääkiekon SM-liigassa. Tiistaina HPK kukisti mainiolla liikkeellä ja tehokkaalla ylivoimapelillä TPS:n vieraissa 1–0 (1–0, 0–0, 0–0).\nHPK hyödynsi ylivoimaa mennen jo ensimmäisessä erässä Mikko Mäenpään maalilla 1–0 -johtoon.\nToisessa ja kolmannessa erässä HPK tarjosi edelleen TPS:lle runsaasti tilanteita, mutta maalia eivät turkulaiset millään ilveellä saaneet. Pahin este oli loistavan pelin Hämeenlinnan maalilla pelannut Mika Oksa.\nTPS:n maalissa Jani Hurme ei osumille mitään mahtanut. Joukkueen suuri yksinäinen kenttäpelaaja oli Kai Nurminen, mutta hänelläkään ei ollut onnea maalitilanteissa.',
  'events':
    {
      'event_id': ['E1', 'E2', 'E3'],
      'event_type': ['game result', 'penalty', 'goal'],
      'text': ['HPK kukisti TPS:n vieraissa 1–0 (1–0, 0–0, 0–0).', '', 'HPK hyödynsi ylivoimaa mennen jo ensimmäisessä erässä Mikko Mäenpään maalilla 1–0 -johtoon.'],
      'home_team': ['TPS', '', ''],
      'guest_team': ['HPK', '', ''],
      'score': ['0–1', '', '0–1'],
      'periods': [['0–1', '0–0', '0–0'], [], []],
      'features': [[], [], ['power play']],
      'player': ['', 'Fredrik Svensson', 'Mikko Mäenpää'],
      'assist': [[], [], ['Jani Keinänen', 'Toni Mäkiaho']],
      'team': ['', 'guest', 'guest'],
      'team_name': ['', 'HPK', 'HPK'],
      'time': ['', '9.28', '14.57'],
      'penalty_minutes': ['', '2', ''],
      'saves': ['', '', ''],
      'multi_reference': [false, false, false]
    }
}
数据拆分

该语料库包含3个拆分: 训练、验证和测试。

GEM中的数据集

加入GEM的原因

数据集加入GEM的原因

该数据集是为了开发适用于芬兰冰球新闻的机器学习文本生成模型而创建的,其中生成的文本会反映出由专业记者撰写的游戏报道中的自然语言变化。尽管原始的游戏报道通常包含从游戏统计数据中无法推导出的其他信息,但语料库经过完全手动策划,以删除所有这些信息的自然语言描述。进行这种策划的理由是防止模型"幻觉"出额外的事实。

类似的数据集

是的

语言覆盖范围独特性

是的

与其他GEM数据集的区别

这是GEM中唯一使用芬兰语的数据到文本语料库。

数据集衡量的能力

词形变化、语言变体

GEM-Specific Curation

GEM 修改

数据点已修改

修改详情

结构化数据已被翻译成英语。

是否有额外的拆分?

没有

任务入门

以前的结果

以前的结果

指标

BLEU、METEOR、ROUGE、WER

提出的评估方法

自动评估: BLEU、NIST、METEOR、ROUGE-L、CIDEr手动评估: 数据错误、语法错误、到可接受游戏报道的最小编辑距离(使用WER)

是否有以前的结果?

是的

数据集策划

原始策划

原始策划原因

该数据集旨在进行文本生成(数据到文本),其中自然语言描述的原始来源是记者撰写的新闻文章。虽然结构化数据(冰球比赛统计数据)和描述比赛的新闻文章之间的联系很弱(新闻文章包含了许多从统计数据中无法推导出的信息,同时留下许多事件未提及),但语料库包括全面的手动注释,将从游戏统计中提取的事件与从新闻文章中提取的相应自然语言段落对齐。

每个事件都手动对齐到类似句子的段落中,如果找不到合适的段落,注释将为空(值为None)。提取的段落经过手动修改,不包含从游戏统计数据中无法推导出的附加信息或不被视为世界知识。段落的手动策划旨在防止模型产生幻觉,即模型学习生成从输入数据无法推导出的事实。

传达目标

描述给定的事件(结构化数据)的自然语言,因此生成冰球比赛报道。

来自不同来源

语言数据

语言数据的获取方式

其他

语言生产者

最初的数据,包括比赛统计数据和新闻文章,是从芬兰新闻机构STT的新闻档案中获得的,该档案释放给学术用途使用( http://urn.fi/urn:nbn:fi:lb-2019041501 )。原始新闻文章是由专业记者撰写的。

我们(TurkuNLP)对芬兰新闻通讯社STT的Maija Paikkala、Salla Salmela和Pihla Lehmusjoki在创建该语料库时的合作表示感谢。

涵盖的主题

冰球、新闻

数据验证

未验证

是否进行了数据过滤?

算法筛选

过滤条件

只包括有比赛统计数据和描述比赛的新闻文章的比赛(基于时间戳和球队名称)。

结构化注释

是否有额外的注释?

专家创建

评分者数量

1

评分者资质

TurkuNLP研究小组的成员,芬兰语母语者。

每个训练示例的评分者数量

1

每个测试示例的评分者数量

1

注释服务?

注释值

事件和其自然语言描述的手动对齐。删除无法从输入数据或世界知识推导出的信息,以防止模型"幻觉"生成事实。

是否进行了质量控制?

由数据策划人员验证

质量控制细节

在初始注释培训阶段对示例进行手动检查。

同意

是否有同意策略?

是的

同意策略细节

数据集许可证已与源材料的提供方商定。

个人识别信息(PII)

是否包含个人识别信息?

是/很可能是

PII类别

一般PII

是否进行了PII识别?

未进行识别

维护

是否有维护计划?

更广泛的社会背景

有关数据集社会影响的以前工作

基于数据的模型的使用情况

对弱势群体的影响

是否满足弱势社群的需求?

偏见讨论

是否有记录的社交偏见?

语言生产者是否代表该语言?

该数据集仅代表书面标准语言。

使用数据的注意事项

PII风险和责任

潜在的PII风险

许可证

该数据集的版权限制

仅限非商业使用

语言数据的版权限制

仅限非商业使用

已知的技术限制