数据集:

dennlinger/wiki-paragraphs

英文

wiki-paragraphs 数据集卡片

数据集概述

wiki-paragraphs 数据集是通过自动从维基百科文章中抽样两个段落构建的。如果它们来自同一节,将被认为是“语义匹配”,否则为“不相似”。理论上,不相似的段落也可以从其他文档中抽样,但在链接工作的特定评估中并未显示出任何改进。对齐方式绝不意味着准确的相似性描述,但可以快速挖掘大量样本。

支持的任务和排行榜

该数据集可用于“同一节分类”,这是一个二分类任务(判断两个句子/段落是否属于同一节)。可以结合文档级一致性度量来使用,其中可以检查在单个文档中出现了多少个错分。详细信息请参阅 our paper

语言

数据是从英文维基百科中提取的,因此主要是英文。

数据集结构

数据实例

单个实例包含三个属性:

{
  "sentence1": "<Sentence from the first paragraph>",
  "sentence2": "<Sentence from the second paragraph>",
  "label": 0/1 # 1 indicates two belong to the same section
}

数据字段

  • sentence1:包含第一个段落的字符串
  • sentence2:包含第二个段落的字符串
  • label:整数,取值为0或1。指示两个段落是否属于同一节(1)或来自不同节(0)

数据拆分

我们提供了训练、验证和测试拆分,这些拆分是从随机洗牌的原始数据源中拆分的。总共,我们提供了25375583个训练对,以及3163685个验证和测试实例,分别。

数据集创建

策划理由

最初的想法是应用于服务条款文档的自我分割。鉴于这些文档具有特定领域的特性,我们希望提供一个基于维基百科数据的更通用的可训练模型。它旨在作为大规模语义相似性长文本(段落级别)的廉价获取的预训练策略。根据我们的实验,它本身并不一定足以替代传统的手工标注的语义相似性数据集。

源数据

初始数据收集和规范化

数据是基于Koshorek等人的Wiki-727k数据集中考虑的文章收集而来的。他们的数据集的转储可以在 respective Github repository 中找到。请注意,我们没有使用经过预处理的数据,而是仅使用有关考虑文章的信息,这些信息是从维基百科中重新获取的。这是因为原始的Wiki-727k作者没有保留段落信息。我们没有验证考虑页面的特定重点。

谁是源语言制作者?

我们对贡献者没有进一步的信息;他们是贡献给en.wikipedia.org的志愿者。

注释

注释过程

数据集中没有添加任何手动注释。我们自动从同一篇文章中抽样两个小节;如果它们属于同一节,它们被赋予一个表示“相似性”的标签(1),否则标签表示它们不属于同一节(0)。我们每个小节、每个文章抽样三个正样本和三个负样本。

谁是注释者?

过程中没有涉及任何注释者。

个人和敏感信息

我们没有以任何方式修改原始的维基百科文本。鉴于个人信息,例如日期(例如感兴趣的人的出生日期)可能会出现在维基百科上,这些信息也被视为我们的数据集的一部分。

使用数据的注意事项

数据集的社会影响

该数据集的目的是作为语义相似性学习的预训练补充。

在使用系统投入生产之前,构建在此数据集上的系统应考虑使用额外的手动注释数据。

偏差讨论

据我们所知,有一些研究表明男性人物有数倍于女性人物被创建维基百科页面的机会(特别是在历史背景下)。因此,这个数据集中可能存在略微的过度代表男性的偏差。

其他已知限制

如前所述,自动提取的语义相似性并不完美;应该对待它。

附加信息

数据集策划者

这个数据集最初是由Lucienne-Sophie Marmé在Dennis Aumiller的指导下开发的一个实际项目。Satya Almasian和Michael Gertz对原始抽样策略做出了贡献。

授权信息

维基百科数据在CC-BY-SA 3.0许可下可获得。

引用信息

@inproceedings{DBLP:conf/icail/AumillerAL021,
  author    = {Dennis Aumiller and
               Satya Almasian and
               Sebastian Lackner and
               Michael Gertz},
  editor    = {Juliano Maranh{\~{a}}o and
               Adam Zachary Wyner},
  title     = {Structural text segmentation of legal documents},
  booktitle = {{ICAIL} '21: Eighteenth International Conference for Artificial Intelligence
               and Law, S{\~{a}}o Paulo Brazil, June 21 - 25, 2021},
  pages     = {2--11},
  publisher = {{ACM}},
  year      = {2021},
  url       = {https://doi.org/10.1145/3462757.3466085},
  doi       = {10.1145/3462757.3466085}
}