您可以在 GEM Website 中找到主数据卡。
该数据集由100万个复杂句子组成,任务是在保留完整含义的同时对其进行分割和简化。与其他简化语料库相比,BiSECT需要更大的修改。BiSECT提供英文、德文、法文和西班牙文的分割。
您可以通过以下方式加载数据集:
import datasets data = datasets.load_dataset('GEM/BiSECT')
数据加载器可以在 here 中找到。
网站 论文@inproceedings{kim-etal-2021-bisect, title = "{B}i{SECT}: Learning to Split and Rephrase Sentences with Bitexts", author = "Kim, Joongwon and Maddela, Mounica and Kriz, Reno and Xu, Wei and Callison-Burch, Chris", booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing", month = nov, year = "2021", address = "Online and Punta Cana, Dominican Republic", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.emnlp-main.500", pages = "6193--6209" }联系人姓名
Joongwon Kim, Mounica Maddela, Reno Kriz
联系人电子邮件jkim0118@seas.upenn.edu, mmaddela3@gatech.edu, rkriz1@jh.edu
是否有排行榜?否
是
覆盖的语言英文、德文、法文、西班牙文、卡斯蒂利亚文
许可证其他:其他许可
预期使用分割和改写。
其他许可证信息该数据集本身没有授权许可,源自 OPUS 的数据仅由公开可用的平行语料库组成。
主要任务简化
交际目标将长且复杂的句子改写为更短、易读且意义相等的句子。
{ "gem_id": "bisect-train-0", "source_sentence": "The report on the visit to Bhutan states that the small community has made the task of coordination less complex and success is manifested in the synchronized programming cycles which now apply to all but one of the agencies ( the World Health Organization ) .", "target_sentence": "The report on the visit to Bhutan says that the small community has made the coordination work less complex . Success manifests itself in synchronized programming cycles that now apply to all but one organism ( the World Health Organization ) ." }数据拆分
对于主要的英文 BiSECT 数据集,拆分如下:1. 训练集(n=928440)2. 验证集(n=9079)3. 测试集(n=583)从文中提取了额外的挑战集。请参阅挑战集部分。其他语言的训练/验证/测试集如下:德文(n=184638/n=864/n=735)西班牙文(n=282944/n=3638/n=3081)法文(n=491035/n=2400/n=1036)
拆分标准尽管所有培训数据均来自 OPUS 语料库的子集,但在培训和验证/测试时使用了不同的源子集。训练集包含更多的网络抓取数据,而验证和测试集则包括 EMEA 和 EU 文本。详细信息请参阅 BiSECT 论文。
理解长句和复杂句对人类和 NLP 模型来说都是具有挑战性的。BiSECT 数据集有助于促进关于分割和改写作为一个独立任务以及其对下游 NLP 应用的益处的更多研究。
类似数据集是
不同之处BiSECT 是最大的可用于 Split and Rephrase 任务的语料库。此外,已经证明 BiSECT 的质量要优于以前的 Split and Rephrase 语料库,并且包含更多种类的分割操作。
大多数以前的 Split and Rephrase 语料库(HSplit-Wiki、Cont-Benchmark 和 Wiki-Benchmark)是手动编写的,规模较小,并且侧重于评估,而一个具有可比大小的语料库 WikiSplit 则包含约 25% 的对含有重大错误的配对。这是因为维基百科编辑不仅试图拆分句子,而且通常同时修改句子以满足其他目的,这会导致初始意义的改变。
是
修改细节添加了数据点
修改细节为了确保公平比较,保留了原始的 BiSECT 训练、验证和测试拆分。请注意,原始的 BiSECT 测试集是通过从 OPUS 的 EMAN 和 JRC-Acquis 语料库中随机抽取的1000对源-目标对中手动选择583个高质量的 Split and Rephrase 实例创建的。
作为第一个挑战集,我们包括了HSPLIT-Wiki 测试集,其中包含359个对。对于每个复杂句子,有四个参考分割;为了确保可复制性,作为参考分割,我们再次遵循 BiSECT 论文,并只呈现来自 HSplit2-full 的参考分割。
除了原始的 BiSECT 论文中使用的两个评估集之外,我们还引入了第二个挑战集。为此,我们首先考虑了来自 EMEA 和 JRC-Acquis 语料库的所有7293个对。然后,我们使用原始 BiSECT 论文第4.2节中的分类算法对每个对进行分类。三个类别如下:
否
您可以从作者的原始存储库中下载该数据集。
原始 BiSECT 论文提出了几个基于 Transformer 的模型,可用作基准,还将其与基于 LSTM 的模型 Copy512 和先前的最佳模型进行了比较。
用于自动评估 Split and Rephrase 和句子简化(更广泛地说)的常见指标是 SARI。BiSECT 论文还使用 BERTScore 进行评估。请注意,自动评估往往与人类判断不相关,因此通常期望对质量进行人工评估以发表论文。原始 BiSECT 论文提供了从亚马逊力士能够采集质量注释的模板。
文本理解(生成等价含义的输出所需)和复杂性概念(从句法结构、词汇选择和标点符号角度来看哪种更“可读”)。
指标其他:其他指标,BERT-Score
其他指标SARI 是用于评估自动文本简化系统的指标。该指标将预测的简化句子与参考和源句子进行比较。它明确衡量了系统增加、删除和保留的单词的好坏程度。
提议的评估现有的自动评估指标(如 BLEU 和 SAMSA)对于 Split and Rephrase 任务不是最优的,因为它们依赖于输出与目标(或源)之间的词汇重叠,并且低估了经常进行改写的模型的分割能力。
因此,数据集创建者专注于 BERTScore 和 SARI。BERTScore 能够很好地捕捉含义保留和流畅性(Scialom 等,2021年)。SARI 可以提供三个单独的 F1/精确度得分,明确地衡量与源和目标相比插入、保留和删除 n-gram 的正确性。作者使用了 SARI 的扩展版本,考虑了参考的词汇释义。
是否有先前的结果?是
BiSECT 的构建是为了满足一个既具有大规模又高质量的分割和改写语料库的需求。大多数以前的 Split and Rephrase 语料库(HSplit-Wiki、Cont-Benchmark 和 Wiki-Benchmark)是手动编写的,规模较小,并且侧重于评估,而一个具有可比大小的语料库 WikiSplit 则包含约 25% 的对含有重大错误。这是因为维基百科编辑不仅试图拆分句子,而且通常同时修改句子以满足其他目的,这会导致初始意义的改变。
交际目标分割和改写的目标是将较长的句子拆分为多个较短的句子,这对于许多 NLP 任务具有下游应用,包括机器翻译和依存句法分析。
来自不同信息源否
发现
在哪里找到?其他
语言制作者N/A.
覆盖的主题有各种主题,涵盖的领域包括网络爬取和政府文件(欧洲议会、联合国、EMEA)。
数据验证数据管理员验证
数据预处理BiSECT 语料库的构建依赖于从集合OPUS(一组多语言配对语料库)中提取的句子级别对齐。给定目标语言 A,该工作提取了语言对 A-B 之间的所有 1-2 和 2-1 句子对齐。
接下来,使用谷歌翻译的 Web API 服务将外语句子翻译成英语,以获得在所需语言中的单个长句和两个相应分割句子之间的句子对齐。
作者还以混合方式进一步筛选了数据。
是否筛选数据?混合
筛选标准为了去除噪音,作者删除了单长句(l)中包含第一个和最后两个字母字符之间的前两个字符和其他标点符号的对。作者还删除了所有 l 包含超过一个未连接部分的实例,该实例是通过 SpaCy 生成的依赖树生成的。
无
注释服务?否
否
使用数据的理由由于这些数据是从 OPUS 中收集的,所有实例都已经在公共领域。
不太可能
PII 类别通用PII
有 PII 标识吗?无标识
否
否
是
数据集如何满足需求?在 GEMv2 中提供的数据是英文的,这是一种具有丰富现有资源的语言。然而,原始论文还提供了法文、西班牙文和德文的分割和改写对,同时提供了一个利用 OPUS 中任何语言对的双语语料库的框架。
否
语言制作者是否代表了该语言?数据集中的语言限于所使用的 OPUS 语料库子集中捕获的内容,这可能无法代表来自所有地点的语言使用情况。例如,使用的语料库来自一组有限的相对正式的领域,因此在 BiSECT 测试集上的高性能可能不会转移到更非正式的文本上。
由于这些数据是从 OPUS 中收集的,所有对都已经在公共领域。
公共领域
语言数据的版权限制公共领域
创建英文 BiSECT 使用了将非英文文本反向翻译成英文的过程。尽管机器翻译系统在高资源语言上表现良好,但仍有非常低的机会存在这些系统会出现错误;通过对 BiSECT 的子集进行手动评估,发现有15%的对存在重大错误,还有22%的对存在适度程度的错误。在创建德文 BiSECT 时,这个问题稍微加剧(22%的重大错误,24%的次要错误),如果使用资源较少的语言,这个比例可能会更大。