数据集:

GEM/RotoWire_English-German

语言:

en de

计算机处理:

unknown

语言创建人:

unknown

批注创建人:

automatically-created

源数据集:

original

许可:

cc-by-4.0
英文

GEM/RotoWire_English-German 的数据集卡片

链接到主数据卡片

您可以在 GEM Website 上找到主数据卡片。

数据集概述

这个数据集是一个篮球领域的数据到文本数据集。输入是一个包含关于一场比赛的统计数据的固定格式的表格(英文),目标是原始英文描述的德文翻译。翻译是由具有篮球经验的专业翻译人员完成的。该数据集可用于评估模型在复杂输入上的跨语言数据到文本能力。

您可以通过以下方式加载数据集:

import datasets
data = datasets.load_dataset('GEM/RotoWire_English-German')

数据加载程序可以在 here 找到。

Website

网站

ACL Anthology

论文

Graham Neubig(卡内基梅隆大学),Hiroaki Hayashi(卡内基梅隆大学)

数据集概述

数据和文档的获取方式

网页

Website

下载

Github

论文

ACL Anthology

BibTex
@inproceedings{hayashi-etal-2019-findings,
    title = "Findings of the Third Workshop on Neural Generation and Translation",
    author = "Hayashi, Hiroaki  and
      Oda, Yusuke  and
      Birch, Alexandra  and
      Konstas, Ioannis  and
      Finch, Andrew  and
      Luong, Minh-Thang  and
      Neubig, Graham  and
      Sudoh, Katsuhito",
    booktitle = "Proceedings of the 3rd Workshop on Neural Generation and Translation",
    month = nov,
    year = "2019",
    address = "Hong Kong",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5601",
    doi = "10.18653/v1/D19-5601",
    pages = "1--14",
    abstract = "This document describes the findings of the Third Workshop on Neural Generation and Translation, held in concert with the annual conference of the Empirical Methods in Natural Language Processing (EMNLP 2019). First, we summarize the research trends of papers presented in the proceedings. Second, we describe the results of the two shared tasks 1) efficient neural machine translation (NMT) where participants were tasked with creating NMT systems that are both accurate and efficient, and 2) document generation and translation (DGT) where participants were tasked with developing systems that generate summaries from structured data, potentially with assistance from text in another language.",
}
联系人姓名

Hiroaki Hayashi

联系人电子邮件

hiroakih@andrew.cmu.edu

有排行榜吗?

语言和使用意图

是否多语言?

支持的语言

英语,德语

许可证

cc-by-4.0:署名 4.0 国际

预期使用方式

促进文档级生成技术的研究,并对不同类型的输入方法进行对比。

主要任务

数据到文本

沟通目标

描述一个篮球比赛的情况,给出其盒子得分表(可能包含外语摘要)。

致谢

策展组织类型

学术

策展组织

卡内基梅隆大学

数据集创建者

Graham Neubig(卡内基梅隆大学),Hiroaki Hayashi(卡内基梅隆大学)

资金

Graham Neubig

谁将数据集添加到GEM中?

Hiroaki Hayashi(卡内基梅隆大学)

数据集结构

数据字段
  • id(字符串):来自原始数据集的标识符。
  • gem_id(字符串):来自GEMv2的标识符。
  • day(字符串):比赛日期(格式:MM_DD_YY)
  • home_name(字符串):主队名称。
  • home_city(字符串):主队城市名称。
  • vis_name(字符串):访客(客队)队名。
  • vis_city(字符串):访客(客队)城市名称。
  • home_line(Dict[str,str]):主队统计数据(例如,球队罚球命中率)。
  • vis_line(Dict[str,str]):访客队统计数据(例如,球队罚球命中率)。
  • box_score(Dict[str,Dict[str,str]]):盒子得分表。 (统计名称到[球员 ID 到统计值]。)
  • summary_en(List [string]):英文目标摘要的标记化形式。
  • sentence_end_index_en(List [int]):用于 summary_en 的句子结束索引。
  • summary_de(List [string]):德文目标摘要的标记化形式。
  • sentence_end_index_de(List [int])::用于 summary_de 的句子结束索引。
  • (未使用)detok_summary_org(字符串):由 RotoWire 数据集提供的原始摘要。
  • (未使用)summary(List [string]):detok_summary_org 的标记化摘要。
  • (未使用)detok_summary(字符串):通过组织者的解标记器进行解标记(带有 summary 数据)的摘要。
结构原因
  • 结构化数据直接从原始的 RotoWire 数据集导入。
  • 文本数据(英语,德语)与每个样本关联。
示例实例
{
  'id': '11_02_16-Jazz-Mavericks-TheUtahJazzdefeatedthe',
  'gem_id': 'GEM-RotoWire_English-German-train-0'
  'day': '11_02_16',
  'home_city': 'Utah',
  'home_name': 'Jazz',
  'vis_city': 'Dallas',
  'vis_name': 'Mavericks',
  'home_line': {
    'TEAM-FT_PCT': '58', ...
  },
  'vis_line': {
    'TEAM-FT_PCT': '80', ...
  },
  'box_score': {
    'PLAYER_NAME': {
      '0': 'Harrison Barnes', ...
  }, ...
  'summary_en': ['The', 'Utah', 'Jazz', 'defeated', 'the', 'Dallas', 'Mavericks', ...],
  'sentence_end_index_en': [16, 52, 100, 137, 177, 215, 241, 256, 288],
  'summary_de': ['Die', 'Utah', 'Jazz', 'besiegten', 'am', 'Mittwoch', 'in', 'der', ...],
  'sentence_end_index_de': [19, 57, 107, 134, 170, 203, 229, 239, 266],
  'detok_summary_org': "The Utah Jazz defeated the Dallas Mavericks 97 - 81 ...",
  'detok_summary': "The Utah Jazz defeated the Dallas Mavericks 97-81 ...",
  'summary': ['The', 'Utah', 'Jazz', 'defeated', 'the', 'Dallas', 'Mavericks', ...],
}
数据拆分
  • 训练
  • 验证
  • 测试
拆分标准
  • 逐句提供英文摘要给具有篮球知识的专业德语翻译人员,以获得句子级德语翻译。
  • 拆分标准遵循原始的 RotoWire 数据集。
  • 训练集中的(英文)摘要长度在145到650个单词之间,平均为323个单词。

GEM 中的数据集

纳入 GEM 的原因

为什么将数据集纳入GEM?

使用两种模态(数据,外语文本)来生成文档级文本摘要。

类似的数据集

独特的语言覆盖范围

与其他GEM数据集的不同之处

可以使用两种模态(数据,外语文本)作为输入。

数据集测量的能力
  • 翻译
  • 数据到文本的语言描述
  • 上述两个的聚合。

GEM - 特定策划

是否修改为GEM?

GEM 修改

其他

修改详细信息
  • 在每个样本中添加了 GEM ID。
  • 为了一致的数据加载,在每个样本中将球员数量规范化为 "N/A"。
是否有其他拆分?

开始使用任务

资源指针 技术术语
  • 数据到文本
  • 神经机器翻译(NMT)
  • 文档级生成和翻译(DGT)

先前的结果

先前的结果

测量的模型能力
  • 相对于黄金标准摘要的文本准确性。
  • 对输入结构化数据的内容的忠实性。
指标

BLEU ,ROUGE ,其他:其他指标

其他度量标准

由 Wiseman et al.(2017)提出的基于模型的度量:

  • 关系生成
  • 内容选择
  • 内容排序
提出的评估

评估生成内容对输入数据的忠实度。

是否有先前的结果可用?

其他评估方法

N/A。

相关的先前结果

有关先前结果,请参见( https://aclanthology.org/D19-5601 )的表2到7。

数据集策划

原始策划

原始策划理由

选择了 RotoWire 数据集的随机子集进行德文翻译注释。

沟通目标

促进文档级生成技术的研究,并对不同类型的输入方法进行对比。

来自不同来源

来源详细信息

RotoWire

语言数据

如何获取语言数据?

为数据集创建

创建过程

雇佣专业德语语言翻译人员将 RotoWire 数据集的子集进行篮球摘要翻译。

语言制作者

翻译人员熟悉篮球术语。

涵盖的主题

篮球(NBA)比赛摘要。

数据验证

由数据策展人验证

数据预处理

句子级别的翻译被对齐回原始的英文摘要句子。

是否进行了数据过滤?

没有过滤

结构化注释

是否有其他注释?

自动创建

注释服务?

注释值

对标记化摘要的句子结束索引。句子边界可以帮助用户准确识别两种语言中对齐的句子,并允许涉及句子边界的准确评估(ROUGE-L)。

是否进行了质量控制?

通过自动脚本验证

质量控制详细信息

测量了一对对齐句子之间的标记和数字重叠。

同意

是否有同意策略?

使用数据的理由

通过引用原始论文进行重用:

  • Sam Wiseman, Stuart M. Shieber, Alexander M. Rush:Challenges in Data-to-Document Generation. EMNLP 2017.
  • Hiroaki Hayashi, Yusuke Oda, Alexandra Birch, Ioannis Konstas, Andrew Finch, Minh-Thang Luong, Graham Neubig, Katsuhito Sudoh. Findings of the Third Workshop on Neural Generation and Translation. WNGT 2019.

个人身份识别信息(PII)

包含个人身份信息吗?

不太可能

PII 类别

通用PII

有 PII 识别吗?

未识别

维护

是否有维护计划?

更广泛的社会背景

关于数据集社会影响的先前工作

基于数据的模型的使用

对弱势群体的影响

是否满足弱势群体的需求?

偏见讨论

是否有已记录的社会偏见?

语言制作者是否代表该语言?
  • 此数据集中的英文文本来自 Rotowire,最初由 Rotowire.com 的作家撰写,很可能是美国为基础。
  • 德文文本由精通英语和德语的专业翻译人员产生。

使用数据的注意事项

PII 风险和责任

PII 风险
  • 结构化数据包含真实的美国男子篮球协会球员和组织名称。

许可证

数据集的版权限制

开放许可证 - 允许商业使用

语言数据的版权限制

开放许可证 - 允许商业使用

已知的技术限制

技术限制

潜在的拆分之间的盒子得分表重叠。这是由 [1] 广泛研究和指出的。

[1]:Thomson, Craig, Ehud Reiter 和 Somayajulu Sripada。"SportSett: Basketball-A robust and maintainable data-set for Natural Language Generation." Proceedings of the Workshop on Intelligent Information Processing and Natural Language Generation. 2020.

不适合的应用程序

用户可以与训练好的模型交互,以了解以文本方式呈现的 NBA 比赛。在生成的文本中,他们可能会注意到与模型所基于的实际数据相矛盾的错误事实,包括球员(例如,3PT)的错误统计数据,不存在的伤病信息等。

不推荐使用的用例

原样发布生成的文本。即使模型在评估指标上取得高分,也存在上述错误事实的风险。