数据集:

GEM/mlb_data_to_text

语言:

en

计算机处理:

unknown

语言创建人:

unknown

批注创建人:

none

源数据集:

original

许可:

other
英文

GEM/mlb_data_to_text数据集卡

主要数据卡链接

你可以在 GEM Website 找到主要数据卡。

数据集摘要

MLB数据集是一个以棒球为领域的英语文本生成数据集。输入是一张包含比赛结果的大型表格,输出是比赛的描述。

你可以通过以下方式加载数据集:

import datasets
data = datasets.load_dataset('GEM/mlb_data_to_text')

数据加载程序可以在 here 找到。

网站 Github

论文 ACL Anthology

作者:

Ratish Puduppully, Li Dong, Mirella Lapata

数据集概述

数据及其文档的获取方式

网页:

Github

下载:

Github

论文:

ACL Anthology

BibTex:

@inproceedings{puduppully-etal-2019-data,
    title = "Data-to-text Generation with Entity Modeling",
    author = "Puduppully, Ratish  and
      Dong, Li  and
      Lapata, Mirella",
    booktitle = "Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2019",
    address = "Florence, Italy",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/P19-1195",
    doi = "10.18653/v1/P19-1195",
    pages = "2023--2035",
}

联系人姓名:

Ratish Puduppully

联系人电子邮件:

ratishpuduppully@gmail.com

有排行榜吗?

语言和预期用途

多语言?

支持的语言:

英语

许可证:

其他:其他许可证

预期的用途:

该数据集可用于研究数据生成文本。数据集在体育领域,将美国职业棒球大联盟(MLB)比赛的统计数据与比赛摘要配对。摘要以文档的形式呈现,包含平均540个标记。因此,它对于研究长文档生成非常有用。

其他许可证信息:

仅限非商业研究用途。

主要任务:

数据生成文本

交流目标:

从统计数据中生成MLB比赛摘要。

来源

策展组织类型:

学术机构

策展组织:

爱丁堡大学

数据集创建者:

Ratish Puduppully, Li Dong, Mirella Lapata

数据集结构

数据字段:

        features = datasets.Features(
            {
                "home_name": datasets.Value("string"),
                "box_score": [
                    {
                        "p_l": datasets.Value("string"),
                        "last_name": datasets.Value("string"),
                        "p_h": datasets.Value("string"),
                        "sac": datasets.Value("string"),
                        "p_bb": datasets.Value("string"),
                        "pos": datasets.Value("string"),
                        "ao": datasets.Value("string"),
                        "p_bf": datasets.Value("string"),
                        "cs": datasets.Value("string"),
                        "hbp": datasets.Value("string"),
                        "ab": datasets.Value("string"),
                        "full_name": datasets.Value("string"),
                        "p_w": datasets.Value("string"),
                        "go": datasets.Value("string"),
                        "fldg": datasets.Value("string"),
                        "p_bs": datasets.Value("string"),
                        "avg": datasets.Value("string"),
                        "p_r": datasets.Value("string"),
                        "p_s": datasets.Value("string"),
                        "lob": datasets.Value("string"),
                        "first_name": datasets.Value("string"),
                        "p_sv": datasets.Value("string"),
                        "p_so": datasets.Value("string"),
                        "p_save": datasets.Value("string"),
                        "p_hr": datasets.Value("string"),
                        "po": datasets.Value("string"),
                        "p_ip1": datasets.Value("string"),
                        "p_ip2": datasets.Value("string"),
                        "bb": datasets.Value("string"),
                        "ops": datasets.Value("string"),
                        "p_hld": datasets.Value("string"),
                        "bo": datasets.Value("string"),
                        "p_loss": datasets.Value("string"),
                        "e": datasets.Value("string"),
                        "p_game_score": datasets.Value("string"),
                        "p_win": datasets.Value("string"),
                        "a": datasets.Value("string"),
                        "p_era": datasets.Value("string"),
                        "d": datasets.Value("string"),
                        "p_out": datasets.Value("string"),
                        "h": datasets.Value("string"),
                        "p_er": datasets.Value("string"),
                        "p_np": datasets.Value("string"),
                        "hr": datasets.Value("string"),
                        "r": datasets.Value("string"),
                        "so": datasets.Value("string"),
                        "t": datasets.Value("string"),
                        "rbi": datasets.Value("string"),
                        "team": datasets.Value("string"),
                        "sb": datasets.Value("string"),
                        "slg": datasets.Value("string"),
                        "sf": datasets.Value("string"),
                        "obp": datasets.Value("string"),
                    }
                ],
                "home_city": datasets.Value("string"),
                "vis_name": datasets.Value("string"),
                "play_by_play": [{
                    "top": [{
                        "runs": datasets.Value("string"),
                        "scorers": [
                            datasets.Value("string")
                        ],
                        "pitcher": datasets.Value("string"),
                        "o": datasets.Value("string"),
                        "b": datasets.Value("string"),
                        "s": datasets.Value("string"),
                        "batter": datasets.Value("string"),
                        "b1": [
                            datasets.Value("string")
                        ],
                        "b2": [
                            datasets.Value("string")
                        ],
                        "b3": [
                            datasets.Value("string")
                        ],
                        "event": datasets.Value("string"),
                        "event2": datasets.Value("string"),
                        "home_team_runs": datasets.Value("string"),
                        "away_team_runs": datasets.Value("string"),
                        "rbi": datasets.Value("string"),
                        "error_runs": datasets.Value("string"),
                        "fielder_error": datasets.Value("string")
                    }
                    ],
                    "bottom": [{
                        "runs": datasets.Value("string"),
                        "scorers": [
                            datasets.Value("string")
                        ],
                        "pitcher": datasets.Value("string"),
                        "o": datasets.Value("string"),
                        "b": datasets.Value("string"),
                        "s": datasets.Value("string"),
                        "batter": datasets.Value("string"),
                        "b1": [
                            datasets.Value("string")
                        ],
                        "b2": [
                            datasets.Value("string")
                        ],
                        "b3": [
                            datasets.Value("string")
                        ],
                        "event": datasets.Value("string"),
                        "event2": datasets.Value("string"),
                        "home_team_runs": datasets.Value("string"),
                        "away_team_runs": datasets.Value("string"),
                        "rbi": datasets.Value("string"),
                        "error_runs": datasets.Value("string"),
                        "fielder_error": datasets.Value("string")
                    }
                    ],
                    "inning": datasets.Value("string")
                }
                ],
                "vis_line": {
                    "innings": [{
                     "inn": datasets.Value("string"),
                     "runs": datasets.Value("string")
                    }
                    ],
                    "result": datasets.Value("string"),
                    "team_runs": datasets.Value("string"),
                    "team_hits": datasets.Value("string"),
                    "team_errors": datasets.Value("string"),
                    "team_name": datasets.Value("string"),
                    "team_city": datasets.Value("string")
                },
                "home_line": {
                    "innings": [{
                        "inn": datasets.Value("string"),
                        "runs": datasets.Value("string")
                    }
                    ],
                    "result": datasets.Value("string"),
                    "team_runs": datasets.Value("string"),
                    "team_hits": datasets.Value("string"),
                    "team_errors": datasets.Value("string"),
                    "team_name": datasets.Value("string"),
                    "team_city": datasets.Value("string")
                },
                "vis_city": datasets.Value("string"),
                "day": datasets.Value("string"),
                "summary": [
                    datasets.Value("string"),
                ],
                "gem_id": datasets.Value("string")
            }

结构原因:

高层结构包含以下属性:主队名、客队名、主队城市、客队城市、摘要、摘要评估、日期、gem_id、盒分、打击成绩、主队阵容、客队阵容。主队名、客队名、主队城市、客队城市和日期是字符串值。"摘要"属性包含以标记列表形式的摘要。"摘要评估"属性以标记字符串形式表示摘要。与"摘要"字段的区别在于,"摘要评估"不包含"NEWPARAGRAPH"分隔符来分隔段落。在评估模型输出时应使用"摘要评估"字段。训练过程中可以使用"摘要"字段。"盒分"包含比赛中球员的打击成绩统计数据。它是一个列表,每个元素描述一个球员的成绩统计数据。打击成绩统计数据包含53个属性。下面是属性的描述,大多数属性的描述来自 mlb.com

  • r:球员在比赛中得分。
  • rbi:击球得分(RBI):击球手的动作导致其他队员得分。
  • pos:球员的位置。
  • avg:击球率。它表示球员在职业生涯中的击球数。
  • bb:四坚尼球(walk):球员不击球时,投手投出四个投手区外的球。
  • hr:本垒打(home run):击球手将球击落出界,超过外野界限。
  • p_r:投手在比赛中失分。
  • p_bb:投手在比赛中被保送。
  • p_h:投手在比赛中被击中。
  • p_hr:投手在比赛中被击出本垒打。
  • p_er:自责得分(ER):自责得分是指对投手造成的任何得分。
  • p_era:自责得分平均(ERA):自责得分平均每场比赛投手准许的自责得分数。
  • p_np:投手的投球数:投手在比赛中投的全部投球数。
  • p_ip1:投手投球局数(IP1):投手在比赛中留在场上的局数。因为一个局有三个出局,每个出局被记录为投了三分之一的局数。
  • p_ip2:投手投球局数(IP2):投手在比赛中留在场上的局数。因为一个局有三个出局,每个出局被记录为投了三分之一的局数。
  • p_w:投手获胜:当投手在他的球队永久超过对手时,他会获得胜利。
  • p_l:投手失败:当投手输掉的一分被证明成为比赛的领先分,对手队取得的优势足够维持到比赛结束时,投手会承受失败。
  • p_so:三振:当投手向击球手投出任意组合的三个挥棒击球或观看的挥棒。
  • p_save:救援:救援投手在胜利队完成比赛时被授予救援。投手不能在同一场比赛中既获得救援又获得胜利。
  • p_sv:救援:投手在他的职业生涯中记录的救援次数。
  • sac:牺牲飞球:当击球手将击球飞向外野或犯规区,允许一个跑者得分时发生。
  • p_bf:面对击球手:面对击球手是指投手或球队所面对的总体击球局数。在完美比赛中,投手会面对27个击球手。
  • cs:盗垒失败:当一名跑者试图盗垒,但被标记为出局时,他在到达二垒、三垒或本垒前被标记为出局。
  • hbp:被触身球:当击球手被投掷球击中而没有挥棒时,他被授予一垒。出局不计。
  • ab:正式的打数发生在击球手通过守备球员选择、击中或错误(不包括接球手干扰)时,或者击球手守备出局后。不包括牺牲打数。
  • p_bs:吹救:当一名救援投手进入一个救援局面时,但允许平分时,就会发生吹救。
  • p_s:投手投掷的三振数
  • lob:残垒:既可作为个人统计,也可作为团队统计。在个人击球手的情况下,它表示在击球手在本垒失利时,有多少位跑者留在垒上,因为击球手未能完成得分——或者至少让自己处于得分位置。在球队的情况下,或者在个别投手的情况下,它表示在一局比赛结束时留在垒上的人数。
  • po:守备记录:当守备球员在其他守备球员完成出局的行为时,该守备球员被认定为助攻。
  • ops:OPS(Slugging Percentage Plus On-Base Percentage)将上垒率和长打率加在一起,得到一个统一的数字。它表示一个击球手有多频繁地通过一次打数到达垒上。
  • p_hld:暂停:当一名救援投手在保护胜利机会时进入比赛,并在获取至少一个出局后保持他所在球队的领先地位时,就会发生保送。
  • p_loss:真/假-表示败投手
  • e:失误:如果官方计分员判断守备球员没有完成一个普通守备球员应该完成的出局动作,则守备球员会被认定为错误。
  • p_win:真/假-表示胜投手
  • a:助攻:当守备球员在另一守备球员完成出局动作之前触球时,他将得到一个助攻。
  • h:安打:当击球手将棒球击出公平区域并达到垒时,而不通过错误或守备球员的选择击出棒球时,会发生安打。
  • so:被击出局:将击球手击出局的三振
  • team:球员所在球队
  • sb:盗垒:当跑垒者通过取得基地而不符合规定时,会发生盗垒。
  • slg:长打率:长打率表示每次打数球员记录的垒数。与上垒率不同,长打率只涉及击球,并不包括敬避四球和接球手触身球。
  • sf:牺牲飞球:当击球手将击球飞向外野或犯规区,允许一个跑者得分时发生。
  • obp:上垒率(OBP)是每个打席中击球手上垒的频率。上垒次数包括安打、保送和触身球,但不包括失误、选择进垒或接球手失误上垒次数。

play-by-play的属性描述如下:

  • batter:打者。
  • pitcher:投手。
  • b1:一垒位置上的球员。
  • b2:二垒位置上的球员。
  • b3:三垒位置上的球员。
  • scorers:在比赛中得分的球员。
  • fielder_error:犯错误的球员。
  • event:比赛中的事件,如安打、二垒打、本垒打等。
  • event2:比赛中的第二个事件,如野球、失误等。
  • inning:比赛的局数。
  • top/bottom:如果主场队打击,则为bottom;如果客场队打击,则为top。
  • o:出局的次数。
  • b:挨球的次数。
  • s:好球的数目。
  • r:得分的次数。
  • rbi:击球得分的次数。
  • error_runs:由于错误导致的得分。
  • home_team_runs:主场球队的得分。
  • vis_team_runs:客场球队的得分。

home_line和vis_line包含了team_name、team_city、team_runs、team_hits、team_error、result和每一局得分的字符串值对。

数据拆分

数据集分为训练集、验证集和测试集。

拆分标准:

随机拆分。

GEM数据集

纳入GEM的理由

为什么将数据集纳入GEM中?

该数据集可以验证模型是否能够进行长文档生成。长文档生成的挑战包括确保生成的输出连贯,忠实于输入,流畅并避免重复的文本。使用该数据集训练的模型可以验证这些方面。

类似的数据集:

唯一的语言覆盖范围:

与其他GEM数据集的区别:

与现有的RotoWire(Wiseman等人,2017年)数据集相比,MLB摘要更长(大约多50%),输入记录更丰富且更结构化(添加了逐个比赛的情况)。此外,MLB数据集的数据量(即表格和比赛摘要的对数)是RotoWire的五倍。

数据集测量能力:

长文档生成,信息内容的连贯性,对输入统计数据的忠实性,生成的流畅性和避免文本重复。

GEM专属策划

是否修改为GEM?

GEM的修改:

删除了数据点。

修改细节:

从训练数据集中删除了一些示例,这些示例符合以下条件:

  • 与验证/测试集重叠的训练集示例。
  • 一些描述了洗牌出局的比赛的示例。
  • 是否有其他拆分?

    开始任务

    指向资源的指针:

    research paper 是一个不错的资源

    以前的结果

    以前的结果

    衡量模型的能力:

    自动评估度量可以评估模型输出的事实性、内容选择性、内容排序和流畅性。事实性、内容选择性和内容排序使用Wiseman等人(2017年)引入的基于信息提取的评估方法进行衡量。流畅度使用BLEU进行衡量。

    度量指标:

    其他:其他指标

    其他指标:

    Wiseman等人(2017年)定义了三个指标,这些指标根据运行在模型/人类撰写的游戏摘要上的信息提取模型的输出得出。设ÿ为金标摘要,y为模型生成的摘要。 - 关系生成(RG)衡量从y中提取的与记录r中出现的关系相同和数量相同的关系的精度和计数。 - 内容选择性(CS)衡量在y中提取的与ÿ中提取的关系相同的关系的精度和召回率。 - 内容排序(CO)衡量从y和ÿ中提取的关系序列之间的标准化Damerau-Levenshtein距离(Brill和Moore,2000)的补集。

    拟议的评估方式:

    我们重新使用了Wiseman等人(2017年)介绍的基于信息提取评估的自动度量。对于人工评估,我们进行了调查,评估数据的事实性、连贯性、语法正确性和简洁性。

    是否已有之前的结果?

    相关的以前的结果:

    数据集最相关的以前的结果是关于 Data-to-text Generation with Macro Planning 的TACL 2021论文

    数据集策划

    原始策划

    原始策划理由:

    这个数据集的策划是为了补充现有的数据生成文本数据集(RotoWire由Wiseman等人, 2017年), 该数据集主要关注长文档的生成。与RotoWire相比,MLB摘要更长(大约多50%),输入的记录更加详细和结构化(增加了逐个打击的摘要)。此外,MLB数据集在数据规模上大约是RotoWire的五倍。

    交流目标:

    目标是研究数据生成文本任务中的长文档自动生成。生成的摘要应该呈现出信息的连贯排序,忠实于输入统计数据,流畅且避免文本的重复。

    来源于不同来源:

    语言数据

    语言数据的获取方式:

    找到的

    它在哪里找到?

    单个网站

    语言制作者:

    比赛摘要由专业作者编辑。

    涵盖的主题:

    语言重点是体育领域。

    数据验证:

    未验证

    数据预处理:

    比赛摘要使用NLTK(Bird等,2009年)进行分词,并将连字符分隔开来。删除了包含引号的句子,因为它们包含与输入表格无关的意见和非事实性陈述。有时MLB摘要中会包含一个“比赛说明”部分,其中包含次要信息,该部分也会被删除。

    是否已经过滤了数据?

    未经过滤

    结构化注释

    是否有其他注释?

    没有

    注释服务?

    没有

    同意

    是否有同意政策?

    没有

    使用数据的理由:

    版权归原始数据创建者所有,使用许可仅限于非商业用途。

    私人识别信息(PII)

    是否包含PII?

    是/很可能

    PII类别:

    敏感信息, 通用PII

    有任何PII识别?

    没有识别

    维护

    是否有维护计划?

    没有

    更广泛的社会背景

    对数据集社会影响的先前研究

    基于数据集的模型使用:

    没有

    对弱势群体需求的影响

    解决弱势社区的需求?

    没有

    偏见讨论

    是否有记录的社会偏见?

    不确定

    使用数据的注意事项

    PII风险和责任

    许可证

    对数据集的版权限制:

    仅限研究使用

    对语言数据的版权限制:

    仅限研究使用

    已知的技术限制