数据集:
GEM/SciDuet
您可以在此处找到主数据卡片 GEM Website 。
该数据集支持从文档文本生成演示文稿幻灯片内容的任务。
您可以通过以下方式加载数据集:
import datasets data = datasets.load_dataset('GEM/SciDuet')
数据加载器可以在此处找到 here 。
网站 论文 作者Edward Sun、Yufang Hou、Dakuo Wang、Yunfeng Zhang、Nancy Wang
@inproceedings{sun-etal-2021-d2s, title = "{D}2{S}: Document-to-Slide Generation Via Query-Based Text Summarization", author = "Sun, Edward and Hou, Yufang and Wang, Dakuo and Zhang, Yunfeng and Wang, Nancy X. R.", booktitle = "Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies", month = jun, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.naacl-main.111", doi = "10.18653/v1/2021.naacl-main.111", pages = "1405--1418", abstract = "Presentations are critical for communication in all areas of our lives, yet the creation of slide decks is often tedious and time-consuming. There has been limited research aiming to automate the document-to-slides generation process and all face a critical challenge: no publicly available dataset for training and benchmarking. In this work, we first contribute a new dataset, SciDuet, consisting of pairs of papers and their corresponding slides decks from recent years{'} NLP and ML conferences (e.g., ACL). Secondly, we present D2S, a novel system that tackles the document-to-slides task with a two-step approach: 1) Use slide titles to retrieve relevant and engaging text, figures, and tables; 2) Summarize the retrieved context into bullet points with long-form question answering. Our evaluation suggests that long-form QA outperforms state-of-the-art summarization baselines on both automated ROUGE metrics and qualitative human evaluation.", }有排行榜吗?
否
否
覆盖的语言英语
许可证apache-2.0:Apache License 2.0
预期用途促进文档转幻灯片生成任务的研究
主要任务文本转幻灯片
工业
策划组织IBM Research
数据集创建者Edward Sun、Yufang Hou、Dakuo Wang、Yunfeng Zhang、Nancy Wang
资金支持IBM Research
将数据集添加到GEM的人Yufang Hou(IBM Research)、Dakuo Wang(IBM Research)
原始论文和幻灯片(两者均为PDF格式)经过仔细处理,结合使用PDF/Image处理工具包,将对应于相同幻灯片标题的多个幻灯片的文本内容合并。
数据划分训练、验证和测试数据分别来自ACL Anthology的136篇、55篇和81篇论文及其对应的幻灯片。
划分标准集成到GEM中的数据集是 paper 中描述的整个数据集的ACL部分。它包含完整的开发集和测试集,以及部分训练数据集。请注意,由于版权问题,我们无法发布完整的训练数据集,但研究人员仍可以使用我们发布的数据采购代码从在线的ICML/NeurIPS文集中生成训练数据集。
SciDuet是首个公开提供的文档转幻灯片生成任务的数据集,该任务要求模型具有良好的“理解”长文本、选择适当内容和生成要点的能力。
类似的数据集否
数据集衡量的能力内容选择、长文本理解和生成
否
是否有其他数据划分?否
内容选择、长文本理解和要点生成
指标ROUGE
提出的评估方式自动评估指标:ROUGE人工评估:可读性、信息性、一致性
是
其他评估方法ROUGE + 人工评估
相关的先前结果论文"D2S: Document-to-Slide Generation Via Query-Based Text Summarization" 报告了 ROUGE-1、ROUGE-2 和ROUGE-L(F分数)的值,分别为20.47、5.26和19.08。
为文档转幻灯片任务提供基准数据集。
来自不同来源的数据否
其他
数据验证未经验证
数据预处理通过Grobid提取论文上的文本。通过pdffigures提取图形和标题。通过IBM Watson Discovery包和pytesseract OCR提取幻灯片上的文本。通过OpenCV的多尺度模板匹配将幻灯片和论文上出现的图形和表格进行关联。通过标准基于字符串的启发式方法对数据集进行进一步的清理,包括句子构建、方程和浮动标题的移除,以及重复行的删除。
是否对数据进行了过滤?通过算法进行了过滤
过滤条件幻灯片的上下文文本不应包含其他格式信息,如“*** University”
无
注释服务?否
是
同意政策细节原始数据集已在Apache-2.0下开源。其中一些原始数据集的创建者是GEM v2数据集基础设施团队的一部分,并负责将此数据集整合到GEM中。
是/很可能
PII的类别通用PII
是否进行了PII识别?未进行识别
否
否
否
不确定
仅限非商业用途
语言数据的版权限制仅限研究用途