英文

语料库概述

此语料库包含250000个条目,由一对西班牙语句子及其相似度值(范围为0至1)组成。该语料库被用于训练 sentence-transformer 库,以提高 RoBERTa-large-bne 基础模型的效率。每对句子是 CelebA 数据集中面部的文本描述,先前已被翻译成西班牙语。生成此语料库的过程如下:

  • 首先,将原始英文文本翻译成西班牙语。原始的英文语料库来自于 Text2faceGAN 的工作。

  • 接着,实现了一个算法,该算法从翻译后的语料库中随机选择两个句子,并计算它们的相似度值。使用了 Spacy 来获取每对句子的相似度值。

  • 由于 Spacy 和大多数计算句子相似度的库只能在英文中工作,因此算法的一部分是从原始的英文语料库中额外选择一对句子。最终的 RoBERTa 训练语料库由西班牙文本和相似度得分定义。

  • 将每对由西班牙语句子和相似度值组成的句子,用字符 "|" 分隔,保存为新语料库的条目。

使用该语料库进行 RoBERTa-large-bne + CelebA 的训练,生成了新模型 RoBERTa-celebA-Sp

语料库字段

每个语料库条目由以下组成:

  • 句子A: CelebA面部的西班牙语文本描述。
  • 句子B: CelebA面部的西班牙语文本描述。
  • 相似度值: 句子A和句子B的相似度。

每个组件之间用字符 "|" 分隔,结构为:

SentenceA | Sentence B | similarity value

可以根据需要下载带有 .txt 或 .csv 扩展名的文件。

引用信息

引用方式:如果您在工作中使用了 CelebA_RoBERTa_Sp 语料库,请引用 ????:

许可证

此语料库在 Apache License 2.0 下可用。

作者

Universidad Nacional de Ingeniería Ontology Engineering Group Universidad Politécnica de Madrid.

贡献者

查看完整的贡献者列表 here