数据集:
dennlinger/wiki-paragraphs
语言:
en计算机处理:
monolingual大小:
10M<n<100M语言创建人:
crowdsourced批注创建人:
machine-generated源数据集:
original预印本库:
arxiv:2012.03619许可:
cc-by-sa-3.0wiki-paragraphs 数据集是通过自动从维基百科文章中抽样两个段落构建的。如果它们来自同一节,将被认为是“语义匹配”,否则为“不相似”。理论上,不相似的段落也可以从其他文档中抽样,但在链接工作的特定评估中并未显示出任何改进。对齐方式绝不意味着准确的相似性描述,但可以快速挖掘大量样本。
该数据集可用于“同一节分类”,这是一个二分类任务(判断两个句子/段落是否属于同一节)。可以结合文档级一致性度量来使用,其中可以检查在单个文档中出现了多少个错分。详细信息请参阅 our paper 。
数据是从英文维基百科中提取的,因此主要是英文。
单个实例包含三个属性:
{ "sentence1": "<Sentence from the first paragraph>", "sentence2": "<Sentence from the second paragraph>", "label": 0/1 # 1 indicates two belong to the same section }
我们提供了训练、验证和测试拆分,这些拆分是从随机洗牌的原始数据源中拆分的。总共,我们提供了25375583个训练对,以及3163685个验证和测试实例,分别。
最初的想法是应用于服务条款文档的自我分割。鉴于这些文档具有特定领域的特性,我们希望提供一个基于维基百科数据的更通用的可训练模型。它旨在作为大规模语义相似性长文本(段落级别)的廉价获取的预训练策略。根据我们的实验,它本身并不一定足以替代传统的手工标注的语义相似性数据集。
数据是基于Koshorek等人的Wiki-727k数据集中考虑的文章收集而来的。他们的数据集的转储可以在 respective Github repository 中找到。请注意,我们没有使用经过预处理的数据,而是仅使用有关考虑文章的信息,这些信息是从维基百科中重新获取的。这是因为原始的Wiki-727k作者没有保留段落信息。我们没有验证考虑页面的特定重点。
谁是源语言制作者?我们对贡献者没有进一步的信息;他们是贡献给en.wikipedia.org的志愿者。
数据集中没有添加任何手动注释。我们自动从同一篇文章中抽样两个小节;如果它们属于同一节,它们被赋予一个表示“相似性”的标签(1),否则标签表示它们不属于同一节(0)。我们每个小节、每个文章抽样三个正样本和三个负样本。
谁是注释者?过程中没有涉及任何注释者。
我们没有以任何方式修改原始的维基百科文本。鉴于个人信息,例如日期(例如感兴趣的人的出生日期)可能会出现在维基百科上,这些信息也被视为我们的数据集的一部分。
该数据集的目的是作为语义相似性学习的预训练补充。
在使用系统投入生产之前,构建在此数据集上的系统应考虑使用额外的手动注释数据。
据我们所知,有一些研究表明男性人物有数倍于女性人物被创建维基百科页面的机会(特别是在历史背景下)。因此,这个数据集中可能存在略微的过度代表男性的偏差。
如前所述,自动提取的语义相似性并不完美;应该对待它。
这个数据集最初是由Lucienne-Sophie Marmé在Dennis Aumiller的指导下开发的一个实际项目。Satya Almasian和Michael Gertz对原始抽样策略做出了贡献。
维基百科数据在CC-BY-SA 3.0许可下可获得。
@inproceedings{DBLP:conf/icail/AumillerAL021, author = {Dennis Aumiller and Satya Almasian and Sebastian Lackner and Michael Gertz}, editor = {Juliano Maranh{\~{a}}o and Adam Zachary Wyner}, title = {Structural text segmentation of legal documents}, booktitle = {{ICAIL} '21: Eighteenth International Conference for Artificial Intelligence and Law, S{\~{a}}o Paulo Brazil, June 21 - 25, 2021}, pages = {2--11}, publisher = {{ACM}}, year = {2021}, url = {https://doi.org/10.1145/3462757.3466085}, doi = {10.1145/3462757.3466085} }