你可以在 GEM Website 找到主要数据卡。
MLB数据集是一个以棒球为领域的英语文本生成数据集。输入是一张包含比赛结果的大型表格,输出是比赛的描述。
你可以通过以下方式加载数据集:
import datasets data = datasets.load_dataset('GEM/mlb_data_to_text')
数据加载程序可以在 here 找到。
网站 Github
作者:Ratish Puduppully, Li Dong, Mirella Lapata
@inproceedings{puduppully-etal-2019-data, title = "Data-to-text Generation with Entity Modeling", author = "Puduppully, Ratish and Dong, Li and Lapata, Mirella", booktitle = "Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics", month = jul, year = "2019", address = "Florence, Italy", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/P19-1195", doi = "10.18653/v1/P19-1195", pages = "2023--2035", }联系人姓名:
Ratish Puduppully
联系人电子邮件:ratishpuduppully@gmail.com
有排行榜吗?否
否
支持的语言:英语
许可证:其他:其他许可证
预期的用途:该数据集可用于研究数据生成文本。数据集在体育领域,将美国职业棒球大联盟(MLB)比赛的统计数据与比赛摘要配对。摘要以文档的形式呈现,包含平均540个标记。因此,它对于研究长文档生成非常有用。
其他许可证信息:仅限非商业研究用途。
主要任务:数据生成文本
交流目标:从统计数据中生成MLB比赛摘要。
学术机构
策展组织:爱丁堡大学
数据集创建者:Ratish Puduppully, Li Dong, Mirella Lapata
features = datasets.Features( { "home_name": datasets.Value("string"), "box_score": [ { "p_l": datasets.Value("string"), "last_name": datasets.Value("string"), "p_h": datasets.Value("string"), "sac": datasets.Value("string"), "p_bb": datasets.Value("string"), "pos": datasets.Value("string"), "ao": datasets.Value("string"), "p_bf": datasets.Value("string"), "cs": datasets.Value("string"), "hbp": datasets.Value("string"), "ab": datasets.Value("string"), "full_name": datasets.Value("string"), "p_w": datasets.Value("string"), "go": datasets.Value("string"), "fldg": datasets.Value("string"), "p_bs": datasets.Value("string"), "avg": datasets.Value("string"), "p_r": datasets.Value("string"), "p_s": datasets.Value("string"), "lob": datasets.Value("string"), "first_name": datasets.Value("string"), "p_sv": datasets.Value("string"), "p_so": datasets.Value("string"), "p_save": datasets.Value("string"), "p_hr": datasets.Value("string"), "po": datasets.Value("string"), "p_ip1": datasets.Value("string"), "p_ip2": datasets.Value("string"), "bb": datasets.Value("string"), "ops": datasets.Value("string"), "p_hld": datasets.Value("string"), "bo": datasets.Value("string"), "p_loss": datasets.Value("string"), "e": datasets.Value("string"), "p_game_score": datasets.Value("string"), "p_win": datasets.Value("string"), "a": datasets.Value("string"), "p_era": datasets.Value("string"), "d": datasets.Value("string"), "p_out": datasets.Value("string"), "h": datasets.Value("string"), "p_er": datasets.Value("string"), "p_np": datasets.Value("string"), "hr": datasets.Value("string"), "r": datasets.Value("string"), "so": datasets.Value("string"), "t": datasets.Value("string"), "rbi": datasets.Value("string"), "team": datasets.Value("string"), "sb": datasets.Value("string"), "slg": datasets.Value("string"), "sf": datasets.Value("string"), "obp": datasets.Value("string"), } ], "home_city": datasets.Value("string"), "vis_name": datasets.Value("string"), "play_by_play": [{ "top": [{ "runs": datasets.Value("string"), "scorers": [ datasets.Value("string") ], "pitcher": datasets.Value("string"), "o": datasets.Value("string"), "b": datasets.Value("string"), "s": datasets.Value("string"), "batter": datasets.Value("string"), "b1": [ datasets.Value("string") ], "b2": [ datasets.Value("string") ], "b3": [ datasets.Value("string") ], "event": datasets.Value("string"), "event2": datasets.Value("string"), "home_team_runs": datasets.Value("string"), "away_team_runs": datasets.Value("string"), "rbi": datasets.Value("string"), "error_runs": datasets.Value("string"), "fielder_error": datasets.Value("string") } ], "bottom": [{ "runs": datasets.Value("string"), "scorers": [ datasets.Value("string") ], "pitcher": datasets.Value("string"), "o": datasets.Value("string"), "b": datasets.Value("string"), "s": datasets.Value("string"), "batter": datasets.Value("string"), "b1": [ datasets.Value("string") ], "b2": [ datasets.Value("string") ], "b3": [ datasets.Value("string") ], "event": datasets.Value("string"), "event2": datasets.Value("string"), "home_team_runs": datasets.Value("string"), "away_team_runs": datasets.Value("string"), "rbi": datasets.Value("string"), "error_runs": datasets.Value("string"), "fielder_error": datasets.Value("string") } ], "inning": datasets.Value("string") } ], "vis_line": { "innings": [{ "inn": datasets.Value("string"), "runs": datasets.Value("string") } ], "result": datasets.Value("string"), "team_runs": datasets.Value("string"), "team_hits": datasets.Value("string"), "team_errors": datasets.Value("string"), "team_name": datasets.Value("string"), "team_city": datasets.Value("string") }, "home_line": { "innings": [{ "inn": datasets.Value("string"), "runs": datasets.Value("string") } ], "result": datasets.Value("string"), "team_runs": datasets.Value("string"), "team_hits": datasets.Value("string"), "team_errors": datasets.Value("string"), "team_name": datasets.Value("string"), "team_city": datasets.Value("string") }, "vis_city": datasets.Value("string"), "day": datasets.Value("string"), "summary": [ datasets.Value("string"), ], "gem_id": datasets.Value("string") }结构原因:
高层结构包含以下属性:主队名、客队名、主队城市、客队城市、摘要、摘要评估、日期、gem_id、盒分、打击成绩、主队阵容、客队阵容。主队名、客队名、主队城市、客队城市和日期是字符串值。"摘要"属性包含以标记列表形式的摘要。"摘要评估"属性以标记字符串形式表示摘要。与"摘要"字段的区别在于,"摘要评估"不包含"NEWPARAGRAPH"分隔符来分隔段落。在评估模型输出时应使用"摘要评估"字段。训练过程中可以使用"摘要"字段。"盒分"包含比赛中球员的打击成绩统计数据。它是一个列表,每个元素描述一个球员的成绩统计数据。打击成绩统计数据包含53个属性。下面是属性的描述,大多数属性的描述来自 mlb.com 。
play-by-play的属性描述如下:
home_line和vis_line包含了team_name、team_city、team_runs、team_hits、team_error、result和每一局得分的字符串值对。
数据集分为训练集、验证集和测试集。
拆分标准:随机拆分。
该数据集可以验证模型是否能够进行长文档生成。长文档生成的挑战包括确保生成的输出连贯,忠实于输入,流畅并避免重复的文本。使用该数据集训练的模型可以验证这些方面。
类似的数据集:是
唯一的语言覆盖范围:否
与其他GEM数据集的区别:与现有的RotoWire(Wiseman等人,2017年)数据集相比,MLB摘要更长(大约多50%),输入记录更丰富且更结构化(添加了逐个比赛的情况)。此外,MLB数据集的数据量(即表格和比赛摘要的对数)是RotoWire的五倍。
数据集测量能力:长文档生成,信息内容的连贯性,对输入统计数据的忠实性,生成的流畅性和避免文本重复。
是
GEM的修改:删除了数据点。
修改细节:从训练数据集中删除了一些示例,这些示例符合以下条件:
否
research paper 是一个不错的资源
自动评估度量可以评估模型输出的事实性、内容选择性、内容排序和流畅性。事实性、内容选择性和内容排序使用Wiseman等人(2017年)引入的基于信息提取的评估方法进行衡量。流畅度使用BLEU进行衡量。
度量指标:其他:其他指标
其他指标:Wiseman等人(2017年)定义了三个指标,这些指标根据运行在模型/人类撰写的游戏摘要上的信息提取模型的输出得出。设ÿ为金标摘要,y为模型生成的摘要。 - 关系生成(RG)衡量从y中提取的与记录r中出现的关系相同和数量相同的关系的精度和计数。 - 内容选择性(CS)衡量在y中提取的与ÿ中提取的关系相同的关系的精度和召回率。 - 内容排序(CO)衡量从y和ÿ中提取的关系序列之间的标准化Damerau-Levenshtein距离(Brill和Moore,2000)的补集。
拟议的评估方式:我们重新使用了Wiseman等人(2017年)介绍的基于信息提取评估的自动度量。对于人工评估,我们进行了调查,评估数据的事实性、连贯性、语法正确性和简洁性。
是否已有之前的结果?是
相关的以前的结果:数据集最相关的以前的结果是关于 Data-to-text Generation with Macro Planning 的TACL 2021论文
这个数据集的策划是为了补充现有的数据生成文本数据集(RotoWire由Wiseman等人, 2017年), 该数据集主要关注长文档的生成。与RotoWire相比,MLB摘要更长(大约多50%),输入的记录更加详细和结构化(增加了逐个打击的摘要)。此外,MLB数据集在数据规模上大约是RotoWire的五倍。
交流目标:目标是研究数据生成文本任务中的长文档自动生成。生成的摘要应该呈现出信息的连贯排序,忠实于输入统计数据,流畅且避免文本的重复。
来源于不同来源:否
找到的
它在哪里找到?单个网站
语言制作者:比赛摘要由专业作者编辑。
涵盖的主题:语言重点是体育领域。
数据验证:未验证
数据预处理:比赛摘要使用NLTK(Bird等,2009年)进行分词,并将连字符分隔开来。删除了包含引号的句子,因为它们包含与输入表格无关的意见和非事实性陈述。有时MLB摘要中会包含一个“比赛说明”部分,其中包含次要信息,该部分也会被删除。
是否已经过滤了数据?未经过滤
没有
注释服务?没有
没有
使用数据的理由:版权归原始数据创建者所有,使用许可仅限于非商业用途。
是/很可能
PII类别:敏感信息, 通用PII
有任何PII识别?没有识别
没有
没有
没有
不确定
仅限研究使用
对语言数据的版权限制:仅限研究使用