数据集:
GEM/turku_hockey_data2text
任务:
表格到文本语言:
fi计算机处理:
unknown语言创建人:
unknown批注创建人:
expert-created源数据集:
original其他:
data-to-text许可:
cc-by-nc-sa-4.0主数据卡链接 GEM Website 上可以找到主数据卡.
这是一个芬兰的数据到文本数据集,输入是关于一场曲棍球比赛的结构化信息,输出是对比赛的描述。
您可以通过以下方式加载数据集:
import datasets data = datasets.load_dataset('GEM/turku_hockey_data2text')
数据加载器可以在 here 找到.
网站 论文 作者Jenna Kanerva, Samuel Rönnqvist, Riina Kekki, Tapio Salakoski, Filip Ginter (TurkuNLP / Turku大学)
@inproceedings{kanerva2019newsgen, Title = {Template-free Data-to-Text Generation of Finnish Sports News}, Author = {Jenna Kanerva and Samuel R{\"o}nnqvist and Riina Kekki and Tapio Salakoski and Filip Ginter}, booktitle = {Proceedings of the 22nd Nordic Conference on Computational Linguistics (NoDaLiDa’19)}, year={2019} }联系人姓名
Jenna Kanerva, Filip Ginter
联系人邮箱jmnybl@utu.fi, figint@utu.fi
有排行榜吗?没有
没有
覆盖的方言书面标准语言
覆盖的语言芬兰语
语言属于谁?原始新闻文章是由专业记者撰写的。注释中提取的文本段可能与原文稍有编辑,在语料库的注释过程中进行了修改。
许可证cc-by-nc-sa-4.0:创作共用署名-非商业性使用-相同方式共享4.0国际
使用目的该数据集是为了评估在冰球报道领域中芬兰新闻生成的无模板机器学习方法而开发的基准。
主要任务数据到文本
传达目标根据给定的结构化数据描述一场冰球比赛的事件。
学术机构
策展组织Turku大学
数据集创建者Jenna Kanerva, Samuel Rönnqvist, Riina Kekki, Tapio Salakoski, Filip Ginter (TurkuNLP / Turku大学)
资助该项目得到了谷歌数字新闻创新基金的支持。
谁将数据集添加到GEM中?Jenna Kanerva, Filip Ginter (TurkuNLP / Turku大学)
数据集由比赛构成,其中每个比赛都是一个事件列表。如果事件已经进行了注释(与新闻文章相对应的句子被找到),则包括 "text" 字段,其值不为空字符串("")。
对于每个比赛(dict),都有键 "gem_id"(字符串)、"id"(字符串)、"news_article"(字符串)和 "events"(列表)。
对于每个事件(dict),根据事件类型可用具有非空值的不同相关键(例如进球或处罚)。每个事件的强制键是 "event_id"(字符串)、"event_type"(字符串)、"text"(字符串,如果没有注释则为空字符串)和 "multi_reference"(布尔值)。与具体事件类型无关的键保持为空。
事件字典中相关的键是:
对于每个事件类型,相关的键如下: event_id: 事件的标识符,在游戏中是唯一的,但不是全局唯一的,按时间顺序排列(字符串) event_type: 事件的类型,可能的值为: "game result", "goal", "penalty" 或 "saves"(字符串) text: 事件的自然语言描述,如果不可用则为空字符串(字符串) multi_reference: 此事件是否引用描述多个事件的文本段?(布尔值)
其余的字段特定于事件类型。每个事件类型的相关字段如下:
比赛结果: event_id: 事件的标识符,在游戏中是唯一的,但不是全局唯一的,按时间顺序排列(字符串) event_type: 事件的类型(字符串) home_team: 主队的名称(字符串) guest_team: 客队的名称(字符串) score: 比赛的最终比分,形式为主队-客队(字符串) periods: 比赛各个时段的得分,每个得分形式为主队-客队(字符串列表) features: 其他特征,如加时赛胜利或点球大战(字符串列表) text: 事件的自然语言描述,如果不可用则为空字符串(字符串) multi_reference: 此事件是否引用描述多个事件的文本段?(布尔值)
进球: event_id: 事件的标识符,在游戏中是唯一的,但不是全局唯一的,按时间顺序排列(字符串) event_type: 事件的类型(字符串) player: 进球的球员姓名(字符串) assist: 助攻的球员姓名,最多两名球员(字符串列表) team: 进球的球队,可能的值为 "home" 或 "guest"(字符串) team_name: 进球的球队名称(字符串) score: 进球后的比分,形式为主队-客队(字符串) time: 进球时间,从比赛开始的分钟和秒数(字符串) features: 其他特征,如数人优势或短手进球(字符串列表) text: 事件的自然语言描述,如果不可用则为空字符串(字符串) multi_reference: 此事件是否引用描述多个事件的文本段?(布尔值)
处罚: event_id: 事件的标识符,在游戏中是唯一的,但不是全局唯一的,按时间顺序排列(字符串) event_type: 事件的类型(字符串) player: 接受处罚的球员姓名(字符串) team: 接受处罚的球队,可能的值为 "home" 或 "guest"(字符串) team_name: 接受处罚的球队名称(字符串) penalty_minutes: 处罚分钟数(字符串) time: 处罚时间,从比赛开始的分钟和秒数(字符串) text: 事件的自然语言描述,如果不可用则为空字符串(字符串) multi_reference: 此事件是否引用描述多个事件的文本段?(布尔值)
扑救: event_id: 事件的标识符,在游戏中是唯一的,但不是全局唯一的,按时间顺序排列(字符串) event_type: 事件的类型(字符串) player: 门将的姓名(字符串) team: 门将所在的球队,可能的值为 "home" 或 "guest"(字符串) team_name: 球队的名称(字符串) saves: 比赛中的扑救次数(字符串) text: 事件的自然语言描述,如果不可用则为空字符串(字符串) multi_reference: 此事件是否引用描述多个事件的文本段?(布尔值)
描述多个事件的文本段(multi_reference):
有些文本段是指多个事件,这样将它们分开成单独的陈述是不合适的(例如 "主队在第一节末接受了两次处罚。")。在这些情况下,多个事件与同一文本段对齐,以便第一个事件(按时间顺序)包含注释的文本段,而与同一文本段相关的其余事件在注释的文本字段中包括第一个事件的标识符(例如 text: "E4")。
示例实例{ 'gem_id': 'gem-turku_hockey_data2text-train-0', 'id': '20061031-TPS-HPK', 'news_article': 'HPK:n hyvä syysvire jatkuu jääkiekon SM-liigassa. Tiistaina HPK kukisti mainiolla liikkeellä ja tehokkaalla ylivoimapelillä TPS:n vieraissa 1–0 (1–0, 0–0, 0–0).\nHPK hyödynsi ylivoimaa mennen jo ensimmäisessä erässä Mikko Mäenpään maalilla 1–0 -johtoon.\nToisessa ja kolmannessa erässä HPK tarjosi edelleen TPS:lle runsaasti tilanteita, mutta maalia eivät turkulaiset millään ilveellä saaneet. Pahin este oli loistavan pelin Hämeenlinnan maalilla pelannut Mika Oksa.\nTPS:n maalissa Jani Hurme ei osumille mitään mahtanut. Joukkueen suuri yksinäinen kenttäpelaaja oli Kai Nurminen, mutta hänelläkään ei ollut onnea maalitilanteissa.', 'events': { 'event_id': ['E1', 'E2', 'E3'], 'event_type': ['game result', 'penalty', 'goal'], 'text': ['HPK kukisti TPS:n vieraissa 1–0 (1–0, 0–0, 0–0).', '', 'HPK hyödynsi ylivoimaa mennen jo ensimmäisessä erässä Mikko Mäenpään maalilla 1–0 -johtoon.'], 'home_team': ['TPS', '', ''], 'guest_team': ['HPK', '', ''], 'score': ['0–1', '', '0–1'], 'periods': [['0–1', '0–0', '0–0'], [], []], 'features': [[], [], ['power play']], 'player': ['', 'Fredrik Svensson', 'Mikko Mäenpää'], 'assist': [[], [], ['Jani Keinänen', 'Toni Mäkiaho']], 'team': ['', 'guest', 'guest'], 'team_name': ['', 'HPK', 'HPK'], 'time': ['', '9.28', '14.57'], 'penalty_minutes': ['', '2', ''], 'saves': ['', '', ''], 'multi_reference': [false, false, false] } }数据拆分
该语料库包含3个拆分: 训练、验证和测试。
该数据集是为了开发适用于芬兰冰球新闻的机器学习文本生成模型而创建的,其中生成的文本会反映出由专业记者撰写的游戏报道中的自然语言变化。尽管原始的游戏报道通常包含从游戏统计数据中无法推导出的其他信息,但语料库经过完全手动策划,以删除所有这些信息的自然语言描述。进行这种策划的理由是防止模型"幻觉"出额外的事实。
类似的数据集是的
语言覆盖范围独特性是的
与其他GEM数据集的区别这是GEM中唯一使用芬兰语的数据到文本语料库。
数据集衡量的能力词形变化、语言变体
数据点已修改
修改详情结构化数据已被翻译成英语。
是否有额外的拆分?没有
BLEU、METEOR、ROUGE、WER
提出的评估方法自动评估: BLEU、NIST、METEOR、ROUGE-L、CIDEr手动评估: 数据错误、语法错误、到可接受游戏报道的最小编辑距离(使用WER)
是否有以前的结果?是的
该数据集旨在进行文本生成(数据到文本),其中自然语言描述的原始来源是记者撰写的新闻文章。虽然结构化数据(冰球比赛统计数据)和描述比赛的新闻文章之间的联系很弱(新闻文章包含了许多从统计数据中无法推导出的信息,同时留下许多事件未提及),但语料库包括全面的手动注释,将从游戏统计中提取的事件与从新闻文章中提取的相应自然语言段落对齐。
每个事件都手动对齐到类似句子的段落中,如果找不到合适的段落,注释将为空(值为None)。提取的段落经过手动修改,不包含从游戏统计数据中无法推导出的附加信息或不被视为世界知识。段落的手动策划旨在防止模型产生幻觉,即模型学习生成从输入数据无法推导出的事实。
传达目标描述给定的事件(结构化数据)的自然语言,因此生成冰球比赛报道。
来自不同来源否
其他
语言生产者最初的数据,包括比赛统计数据和新闻文章,是从芬兰新闻机构STT的新闻档案中获得的,该档案释放给学术用途使用( http://urn.fi/urn:nbn:fi:lb-2019041501 )。原始新闻文章是由专业记者撰写的。
我们(TurkuNLP)对芬兰新闻通讯社STT的Maija Paikkala、Salla Salmela和Pihla Lehmusjoki在创建该语料库时的合作表示感谢。
涵盖的主题冰球、新闻
数据验证未验证
是否进行了数据过滤?算法筛选
过滤条件只包括有比赛统计数据和描述比赛的新闻文章的比赛(基于时间戳和球队名称)。
专家创建
评分者数量1
评分者资质TurkuNLP研究小组的成员,芬兰语母语者。
每个训练示例的评分者数量1
每个测试示例的评分者数量1
注释服务?否
注释值事件和其自然语言描述的手动对齐。删除无法从输入数据或世界知识推导出的信息,以防止模型"幻觉"生成事实。
是否进行了质量控制?由数据策划人员验证
质量控制细节在初始注释培训阶段对示例进行手动检查。
是的
同意策略细节数据集许可证已与源材料的提供方商定。
是/很可能是
PII类别一般PII
是否进行了PII识别?未进行识别
否
否
否
否
语言生产者是否代表该语言?该数据集仅代表书面标准语言。
无
仅限非商业使用
语言数据的版权限制仅限非商业使用