数据集:
GEM/RotoWire_English-German
任务:
表格到文本计算机处理:
unknown语言创建人:
unknown批注创建人:
automatically-created源数据集:
original其他:
data-to-text许可:
cc-by-4.0您可以在 GEM Website 上找到主数据卡片。
这个数据集是一个篮球领域的数据到文本数据集。输入是一个包含关于一场比赛的统计数据的固定格式的表格(英文),目标是原始英文描述的德文翻译。翻译是由具有篮球经验的专业翻译人员完成的。该数据集可用于评估模型在复杂输入上的跨语言数据到文本能力。
您可以通过以下方式加载数据集:
import datasets data = datasets.load_dataset('GEM/RotoWire_English-German')
数据加载程序可以在 here 找到。
网站 论文Graham Neubig(卡内基梅隆大学),Hiroaki Hayashi(卡内基梅隆大学)
@inproceedings{hayashi-etal-2019-findings, title = "Findings of the Third Workshop on Neural Generation and Translation", author = "Hayashi, Hiroaki and Oda, Yusuke and Birch, Alexandra and Konstas, Ioannis and Finch, Andrew and Luong, Minh-Thang and Neubig, Graham and Sudoh, Katsuhito", booktitle = "Proceedings of the 3rd Workshop on Neural Generation and Translation", month = nov, year = "2019", address = "Hong Kong", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/D19-5601", doi = "10.18653/v1/D19-5601", pages = "1--14", abstract = "This document describes the findings of the Third Workshop on Neural Generation and Translation, held in concert with the annual conference of the Empirical Methods in Natural Language Processing (EMNLP 2019). First, we summarize the research trends of papers presented in the proceedings. Second, we describe the results of the two shared tasks 1) efficient neural machine translation (NMT) where participants were tasked with creating NMT systems that are both accurate and efficient, and 2) document generation and translation (DGT) where participants were tasked with developing systems that generate summaries from structured data, potentially with assistance from text in another language.", }联系人姓名
Hiroaki Hayashi
联系人电子邮件hiroakih@andrew.cmu.edu
有排行榜吗?否
是
支持的语言英语,德语
许可证cc-by-4.0:署名 4.0 国际
预期使用方式促进文档级生成技术的研究,并对不同类型的输入方法进行对比。
主要任务数据到文本
沟通目标描述一个篮球比赛的情况,给出其盒子得分表(可能包含外语摘要)。
学术
策展组织卡内基梅隆大学
数据集创建者Graham Neubig(卡内基梅隆大学),Hiroaki Hayashi(卡内基梅隆大学)
资金Graham Neubig
谁将数据集添加到GEM中?Hiroaki Hayashi(卡内基梅隆大学)
{ 'id': '11_02_16-Jazz-Mavericks-TheUtahJazzdefeatedthe', 'gem_id': 'GEM-RotoWire_English-German-train-0' 'day': '11_02_16', 'home_city': 'Utah', 'home_name': 'Jazz', 'vis_city': 'Dallas', 'vis_name': 'Mavericks', 'home_line': { 'TEAM-FT_PCT': '58', ... }, 'vis_line': { 'TEAM-FT_PCT': '80', ... }, 'box_score': { 'PLAYER_NAME': { '0': 'Harrison Barnes', ... }, ... 'summary_en': ['The', 'Utah', 'Jazz', 'defeated', 'the', 'Dallas', 'Mavericks', ...], 'sentence_end_index_en': [16, 52, 100, 137, 177, 215, 241, 256, 288], 'summary_de': ['Die', 'Utah', 'Jazz', 'besiegten', 'am', 'Mittwoch', 'in', 'der', ...], 'sentence_end_index_de': [19, 57, 107, 134, 170, 203, 229, 239, 266], 'detok_summary_org': "The Utah Jazz defeated the Dallas Mavericks 97 - 81 ...", 'detok_summary': "The Utah Jazz defeated the Dallas Mavericks 97-81 ...", 'summary': ['The', 'Utah', 'Jazz', 'defeated', 'the', 'Dallas', 'Mavericks', ...], }数据拆分
使用两种模态(数据,外语文本)来生成文档级文本摘要。
类似的数据集是
独特的语言覆盖范围是
与其他GEM数据集的不同之处可以使用两种模态(数据,外语文本)作为输入。
数据集测量的能力是
GEM 修改其他
修改详细信息否
BLEU ,ROUGE ,其他:其他指标
其他度量标准由 Wiseman et al.(2017)提出的基于模型的度量:
评估生成内容对输入数据的忠实度。
是否有先前的结果可用?是
其他评估方法N/A。
相关的先前结果有关先前结果,请参见( https://aclanthology.org/D19-5601 )的表2到7。
选择了 RotoWire 数据集的随机子集进行德文翻译注释。
沟通目标促进文档级生成技术的研究,并对不同类型的输入方法进行对比。
来自不同来源是
来源详细信息RotoWire
为数据集创建
创建过程雇佣专业德语语言翻译人员将 RotoWire 数据集的子集进行篮球摘要翻译。
语言制作者翻译人员熟悉篮球术语。
涵盖的主题篮球(NBA)比赛摘要。
数据验证由数据策展人验证
数据预处理句子级别的翻译被对齐回原始的英文摘要句子。
是否进行了数据过滤?没有过滤
自动创建
注释服务?否
注释值对标记化摘要的句子结束索引。句子边界可以帮助用户准确识别两种语言中对齐的句子,并允许涉及句子边界的准确评估(ROUGE-L)。
是否进行了质量控制?通过自动脚本验证
质量控制详细信息测量了一对对齐句子之间的标记和数字重叠。
否
使用数据的理由通过引用原始论文进行重用:
不太可能
PII 类别通用PII
有 PII 识别吗?未识别
否
否
否
否
语言制作者是否代表该语言?开放许可证 - 允许商业使用
语言数据的版权限制开放许可证 - 允许商业使用
潜在的拆分之间的盒子得分表重叠。这是由 [1] 广泛研究和指出的。
[1]:Thomson, Craig, Ehud Reiter 和 Somayajulu Sripada。"SportSett: Basketball-A robust and maintainable data-set for Natural Language Generation." Proceedings of the Workshop on Intelligent Information Processing and Natural Language Generation. 2020.
不适合的应用程序用户可以与训练好的模型交互,以了解以文本方式呈现的 NBA 比赛。在生成的文本中,他们可能会注意到与模型所基于的实际数据相矛盾的错误事实,包括球员(例如,3PT)的错误统计数据,不存在的伤病信息等。
不推荐使用的用例原样发布生成的文本。即使模型在评估指标上取得高分,也存在上述错误事实的风险。