数据集:

GEM/BiSECT

计算机处理:

unknown

语言创建人:

unknown

批注创建人:

none

源数据集:

original

许可:

other
英文

GEM/BiSECT 数据集卡片

主数据卡链接

您可以在 GEM Website 中找到主数据卡。

数据集概述

该数据集由100万个复杂句子组成,任务是在保留完整含义的同时对其进行分割和简化。与其他简化语料库相比,BiSECT需要更大的修改。BiSECT提供英文、德文、法文和西班牙文的分割。

您可以通过以下方式加载数据集:

import datasets
data = datasets.load_dataset('GEM/BiSECT')

数据加载器可以在 here 中找到。

网站

Link

论文

Link

数据集概览

数据和文档的获取方式

网页

Link

下载

Link

论文

Link

BibTex
@inproceedings{kim-etal-2021-bisect,
    title = "{B}i{SECT}: Learning to Split and Rephrase Sentences with Bitexts",
    author = "Kim, Joongwon  and
      Maddela, Mounica  and
      Kriz, Reno  and
      Xu, Wei  and
      Callison-Burch, Chris",
    booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing",
    month = nov,
    year = "2021",
    address = "Online and Punta Cana, Dominican Republic",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.emnlp-main.500",
    pages = "6193--6209"
}
联系人姓名

Joongwon Kim, Mounica Maddela, Reno Kriz

联系人电子邮件

jkim0118@seas.upenn.edu, mmaddela3@gatech.edu, rkriz1@jh.edu

是否有排行榜?

语言和预期使用

是否多语言?

覆盖的语言

英文、德文、法文、西班牙文、卡斯蒂利亚文

许可证

其他:其他许可

预期使用

分割和改写。

其他许可证信息

该数据集本身没有授权许可,源自 OPUS 的数据仅由公开可用的平行语料库组成。

主要任务

简化

交际目标

将长且复杂的句子改写为更短、易读且意义相等的句子。

信誉

数据集结构

数据字段
  • gem_id(字符串):实例的唯一标识符
  • source_sentence(字符串):需要简化的句子
  • target_sentence(字符串):“分割和改写的简化文本”
示例实例
{
   "gem_id": "bisect-train-0",
   "source_sentence": "The report on the visit to Bhutan states that the small community has made the task of coordination less complex and success is manifested in the synchronized programming cycles which now apply to all but one of the agencies ( the World Health Organization ) .",
   "target_sentence": "The report on the visit to Bhutan says that the small community has made the coordination work less complex . Success manifests itself in synchronized programming cycles that now apply to all but one organism ( the World Health Organization ) ."
}
数据拆分

对于主要的英文 BiSECT 数据集,拆分如下:1. 训练集(n=928440)2. 验证集(n=9079)3. 测试集(n=583)从文中提取了额外的挑战集。请参阅挑战集部分。其他语言的训练/验证/测试集如下:德文(n=184638/n=864/n=735)西班牙文(n=282944/n=3638/n=3081)法文(n=491035/n=2400/n=1036)

拆分标准

尽管所有培训数据均来自 OPUS 语料库的子集,但在培训和验证/测试时使用了不同的源子集。训练集包含更多的网络抓取数据,而验证和测试集则包括 EMEA 和 EU 文本。详细信息请参阅 BiSECT 论文。

GEM 中的数据集

加入 GEM 的原因

为什么将数据集加入到 GEM 中?

理解长句和复杂句对人类和 NLP 模型来说都是具有挑战性的。BiSECT 数据集有助于促进关于分割和改写作为一个独立任务以及其对下游 NLP 应用的益处的更多研究。

类似数据集

不同之处

BiSECT 是最大的可用于 Split and Rephrase 任务的语料库。此外,已经证明 BiSECT 的质量要优于以前的 Split and Rephrase 语料库,并且包含更多种类的分割操作。

大多数以前的 Split and Rephrase 语料库(HSplit-Wiki、Cont-Benchmark 和 Wiki-Benchmark)是手动编写的,规模较小,并且侧重于评估,而一个具有可比大小的语料库 WikiSplit 则包含约 25% 的对含有重大错误的配对。这是因为维基百科编辑不仅试图拆分句子,而且通常同时修改句子以满足其他目的,这会导致初始意义的改变。

GEM 特定的策划

是否对 GEM 进行了修改?

修改细节

添加了数据点

修改细节

为了确保公平比较,保留了原始的 BiSECT 训练、验证和测试拆分。请注意,原始的 BiSECT 测试集是通过从 OPUS 的 EMAN 和 JRC-Acquis 语料库中随机抽取的1000对源-目标对中手动选择583个高质量的 Split and Rephrase 实例创建的。

作为第一个挑战集,我们包括了HSPLIT-Wiki 测试集,其中包含359个对。对于每个复杂句子,有四个参考分割;为了确保可复制性,作为参考分割,我们再次遵循 BiSECT 论文,并只呈现来自 HSplit2-full 的参考分割。

除了原始的 BiSECT 论文中使用的两个评估集之外,我们还引入了第二个挑战集。为此,我们首先考虑了来自 EMEA 和 JRC-Acquis 语料库的所有7293个对。然后,我们使用原始 BiSECT 论文第4.2节中的分类算法对每个对进行分类。三个类别如下:

  • 直接插入:当一个长句 l 包含两个独立分句并且仅需要进行轻微修改即可使其成为流利且保持意义的拆分 s。
  • 在分割附近进行修改:当 l 包含一个独立分句和一个依赖分句时,但修改仅限于在 l 分割的区域内。
  • 在整个句子中进行修改:需要在 l 的整个语句中进行较大的修改,以创建流畅的拆分 s。我们仅保留标记为类型 3 的对,并在去除长度差异较大的对(可能表示内容添加/删除)后,呈现出一个由1798个对组成的第二个挑战集。
  • 有其他的拆分吗?

    开始任务

    资源指示

    您可以从作者的原始存储库中下载该数据集。

    原始 BiSECT 论文提出了几个基于 Transformer 的模型,可用作基准,还将其与基于 LSTM 的模型 Copy512 和先前的最佳模型进行了比较。

    用于自动评估 Split and Rephrase 和句子简化(更广泛地说)的常见指标是 SARI。BiSECT 论文还使用 BERTScore 进行评估。请注意,自动评估往往与人类判断不相关,因此通常期望对质量进行人工评估以发表论文。原始 BiSECT 论文提供了从亚马逊力士能够采集质量注释的模板。

    先前的结果

    先前的结果

    测量的模型能力

    文本理解(生成等价含义的输出所需)和复杂性概念(从句法结构、词汇选择和标点符号角度来看哪种更“可读”)。

    指标

    其他:其他指标,BERT-Score

    其他指标

    SARI 是用于评估自动文本简化系统的指标。该指标将预测的简化句子与参考和源句子进行比较。它明确衡量了系统增加、删除和保留的单词的好坏程度。

    提议的评估

    现有的自动评估指标(如 BLEU 和 SAMSA)对于 Split and Rephrase 任务不是最优的,因为它们依赖于输出与目标(或源)之间的词汇重叠,并且低估了经常进行改写的模型的分割能力。

    因此,数据集创建者专注于 BERTScore 和 SARI。BERTScore 能够很好地捕捉含义保留和流畅性(Scialom 等,2021年)。SARI 可以提供三个单独的 F1/精确度得分,明确地衡量与源和目标相比插入、保留和删除 n-gram 的正确性。作者使用了 SARI 的扩展版本,考虑了参考的词汇释义。

    是否有先前的结果?

    数据集策划

    初始策划

    初始策划的原因

    BiSECT 的构建是为了满足一个既具有大规模又高质量的分割和改写语料库的需求。大多数以前的 Split and Rephrase 语料库(HSplit-Wiki、Cont-Benchmark 和 Wiki-Benchmark)是手动编写的,规模较小,并且侧重于评估,而一个具有可比大小的语料库 WikiSplit 则包含约 25% 的对含有重大错误。这是因为维基百科编辑不仅试图拆分句子,而且通常同时修改句子以满足其他目的,这会导致初始意义的改变。

    交际目标

    分割和改写的目标是将较长的句子拆分为多个较短的句子,这对于许多 NLP 任务具有下游应用,包括机器翻译和依存句法分析。

    来自不同信息源

    语言数据

    语言数据的获取方式

    发现

    在哪里找到?

    其他

    语言制作者

    N/A.

    覆盖的主题

    有各种主题,涵盖的领域包括网络爬取和政府文件(欧洲议会、联合国、EMEA)。

    数据验证

    数据管理员验证

    数据预处理

    BiSECT 语料库的构建依赖于从集合OPUS(一组多语言配对语料库)中提取的句子级别对齐。给定目标语言 A,该工作提取了语言对 A-B 之间的所有 1-2 和 2-1 句子对齐。

    接下来,使用谷歌翻译的 Web API 服务将外语句子翻译成英语,以获得在所需语言中的单个长句和两个相应分割句子之间的句子对齐。

    作者还以混合方式进一步筛选了数据。

    是否筛选数据?

    混合

    筛选标准

    为了去除噪音,作者删除了单长句(l)中包含第一个和最后两个字母字符之间的前两个字符和其他标点符号的对。作者还删除了所有 l 包含超过一个未连接部分的实例,该实例是通过 SpaCy 生成的依赖树生成的。

    结构化注释

    是否有附加注释?

    注释服务?

    同意

    是否有同意政策?

    使用数据的理由

    由于这些数据是从 OPUS 中收集的,所有实例都已经在公共领域。

    私人识别信息(PII)

    包含 PII 吗?

    不太可能

    PII 类别

    通用PII

    有 PII 标识吗?

    无标识

    维护

    有维护计划吗?

    更广泛的社会背景

    数据集的社会影响的先前工作

    基于数据的模型的使用

    对弱势社区的影响

    是否满足弱势社区的需求?

    数据集如何满足需求?

    在 GEMv2 中提供的数据是英文的,这是一种具有丰富现有资源的语言。然而,原始论文还提供了法文、西班牙文和德文的分割和改写对,同时提供了一个利用 OPUS 中任何语言对的双语语料库的框架。

    偏见的讨论

    有文档化的社会偏见吗?

    语言制作者是否代表了该语言?

    数据集中的语言限于所使用的 OPUS 语料库子集中捕获的内容,这可能无法代表来自所有地点的语言使用情况。例如,使用的语料库来自一组有限的相对正式的领域,因此在 BiSECT 测试集上的高性能可能不会转移到更非正式的文本上。

    使用数据集的注意事项

    PII 风险和责任

    潜在的 PII 风险

    由于这些数据是从 OPUS 中收集的,所有对都已经在公共领域。

    许可证

    数据集的版权限制

    公共领域

    语言数据的版权限制

    公共领域

    已知的技术限制

    技术限制

    创建英文 BiSECT 使用了将非英文文本反向翻译成英文的过程。尽管机器翻译系统在高资源语言上表现良好,但仍有非常低的机会存在这些系统会出现错误;通过对 BiSECT 的子集进行手动评估,发现有15%的对存在重大错误,还有22%的对存在适度程度的错误。在创建德文 BiSECT 时,这个问题稍微加剧(22%的重大错误,24%的次要错误),如果使用资源较少的语言,这个比例可能会更大。