数据集:

GEM/SciDuet

语言:

en

计算机处理:

unknown

语言创建人:

unknown

批注创建人:

none

源数据集:

original

许可:

apache-2.0
英文

GEM/SciDuet 数据集卡片

主数据卡片链接

您可以在此处找到主数据卡片 GEM Website

数据集概述

该数据集支持从文档文本生成演示文稿幻灯片内容的任务。

您可以通过以下方式加载数据集:

import datasets
data = datasets.load_dataset('GEM/SciDuet')

数据加载器可以在此处找到 here

网站

Huggingface

论文

ACL Anthology

作者

Edward Sun、Yufang Hou、Dakuo Wang、Yunfeng Zhang、Nancy Wang

数据集概述

数据及其文档的获取方式

网页

Huggingface

下载

Github

论文

ACL Anthology

BibTex
@inproceedings{sun-etal-2021-d2s,
    title = "{D}2{S}: Document-to-Slide Generation Via Query-Based Text Summarization",
    author = "Sun, Edward  and
      Hou, Yufang  and
      Wang, Dakuo  and
      Zhang, Yunfeng  and
      Wang, Nancy X. R.",
    booktitle = "Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies",
    month = jun,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.naacl-main.111",
    doi = "10.18653/v1/2021.naacl-main.111",
    pages = "1405--1418",
    abstract = "Presentations are critical for communication in all areas of our lives, yet the creation of slide decks is often tedious and time-consuming. There has been limited research aiming to automate the document-to-slides generation process and all face a critical challenge: no publicly available dataset for training and benchmarking. In this work, we first contribute a new dataset, SciDuet, consisting of pairs of papers and their corresponding slides decks from recent years{'} NLP and ML conferences (e.g., ACL). Secondly, we present D2S, a novel system that tackles the document-to-slides task with a two-step approach: 1) Use slide titles to retrieve relevant and engaging text, figures, and tables; 2) Summarize the retrieved context into bullet points with long-form question answering. Our evaluation suggests that long-form QA outperforms state-of-the-art summarization baselines on both automated ROUGE metrics and qualitative human evaluation.",
}
有排行榜吗?

语言和预期用途

多语言?

覆盖的语言

英语

许可证

apache-2.0:Apache License 2.0

预期用途

促进文档转幻灯片生成任务的研究

主要任务

文本转幻灯片

鸣谢

策划组织类型

工业

策划组织

IBM Research

数据集创建者

Edward Sun、Yufang Hou、Dakuo Wang、Yunfeng Zhang、Nancy Wang

资金支持

IBM Research

将数据集添加到GEM的人

Yufang Hou(IBM Research)、Dakuo Wang(IBM Research)

数据集结构

如何选择标签?

原始论文和幻灯片(两者均为PDF格式)经过仔细处理,结合使用PDF/Image处理工具包,将对应于相同幻灯片标题的多个幻灯片的文本内容合并。

数据划分

训练、验证和测试数据分别来自ACL Anthology的136篇、55篇和81篇论文及其对应的幻灯片。

划分标准

集成到GEM中的数据集是 paper 中描述的整个数据集的ACL部分。它包含完整的开发集和测试集,以及部分训练数据集。请注意,由于版权问题,我们无法发布完整的训练数据集,但研究人员仍可以使用我们发布的数据采购代码从在线的ICML/NeurIPS文集中生成训练数据集。

GEM中的数据集

纳入GEM的原因

为什么将数据集纳入GEM?

SciDuet是首个公开提供的文档转幻灯片生成任务的数据集,该任务要求模型具有良好的“理解”长文本、选择适当内容和生成要点的能力。

类似的数据集

数据集衡量的能力

内容选择、长文本理解和生成

GEM特定的策划

GEM是否进行了修改?

是否有其他数据划分?

开始任务

先前结果

先前结果

模型能力的测量

内容选择、长文本理解和要点生成

指标

ROUGE

提出的评估方式

自动评估指标:ROUGE人工评估:可读性、信息性、一致性

  • 可读性:生成的幻灯片内容连贯、简洁且语法正确;
  • 信息性:生成的幻灯片提供了足够且必要的信息,与给定的幻灯片标题相匹配,而无论其与原始幻灯片的相似性如何;
  • 一致性:生成的幻灯片内容与原始作者的参考幻灯片相似。
  • 是否有先前的结果?

    其他评估方法

    ROUGE + 人工评估

    相关的先前结果

    论文"D2S: Document-to-Slide Generation Via Query-Based Text Summarization" 报告了 ROUGE-1、ROUGE-2 和ROUGE-L(F分数)的值,分别为20.47、5.26和19.08。

    数据集策划

    原始策划

    原始策划的理由

    为文档转幻灯片任务提供基准数据集。

    来自不同来源的数据

    语言数据

    如何获取语言数据?

    其他

    数据验证

    未经验证

    数据预处理

    通过Grobid提取论文上的文本。通过pdffigures提取图形和标题。通过IBM Watson Discovery包和pytesseract OCR提取幻灯片上的文本。通过OpenCV的多尺度模板匹配将幻灯片和论文上出现的图形和表格进行关联。通过标准基于字符串的启发式方法对数据集进行进一步的清理,包括句子构建、方程和浮动标题的移除,以及重复行的删除。

    是否对数据进行了过滤?

    通过算法进行了过滤

    过滤条件

    幻灯片的上下文文本不应包含其他格式信息,如“*** University”

    结构化注释

    是否有其他注释?

    注释服务?

    同意

    是否有同意政策?

    同意政策细节

    原始数据集已在Apache-2.0下开源。其中一些原始数据集的创建者是GEM v2数据集基础设施团队的一部分,并负责将此数据集整合到GEM中。

    个人身份信息(PII)

    包含PII吗?

    是/很可能

    PII的类别

    通用PII

    是否进行了PII识别?

    未进行识别

    维护

    是否有维护计划?

    更广泛的社会背景

    关于数据集社会影响的先前工作

    基于数据的模型的使用情况

    对弱势群体的影响

    是否满足弱势群体的需求?

    偏见讨论

    是否有记录的社会偏见?

    不确定

    使用数据的注意事项

    PII风险和法律责任

    许可证

    数据集的版权限制

    仅限非商业用途

    语言数据的版权限制

    仅限研究用途

    已知的技术限制