数据集:
oeg/CelebA_RoBERTa_Sp
此语料库包含250000个条目,由一对西班牙语句子及其相似度值(范围为0至1)组成。该语料库被用于训练 sentence-transformer 库,以提高 RoBERTa-large-bne 基础模型的效率。每对句子是 CelebA 数据集中面部的文本描述,先前已被翻译成西班牙语。生成此语料库的过程如下:
首先,将原始英文文本翻译成西班牙语。原始的英文语料库来自于 Text2faceGAN 的工作。
接着,实现了一个算法,该算法从翻译后的语料库中随机选择两个句子,并计算它们的相似度值。使用了 Spacy 来获取每对句子的相似度值。
由于 Spacy 和大多数计算句子相似度的库只能在英文中工作,因此算法的一部分是从原始的英文语料库中额外选择一对句子。最终的 RoBERTa 训练语料库由西班牙文本和相似度得分定义。
将每对由西班牙语句子和相似度值组成的句子,用字符 "|" 分隔,保存为新语料库的条目。
使用该语料库进行 RoBERTa-large-bne + CelebA 的训练,生成了新模型 RoBERTa-celebA-Sp 。
每个语料库条目由以下组成:
每个组件之间用字符 "|" 分隔,结构为:
SentenceA | Sentence B | similarity value
可以根据需要下载带有 .txt 或 .csv 扩展名的文件。
引用方式:如果您在工作中使用了 CelebA_RoBERTa_Sp 语料库,请引用 ????:
此语料库在 Apache License 2.0 下可用。
Universidad Nacional de Ingeniería , Ontology Engineering Group , Universidad Politécnica de Madrid.
查看完整的贡献者列表 here 。