oeg/CelebA_RoBERTa_Sp | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

数据集:

oeg/CelebA_RoBERTa_Sp

任务:

表格问答

问答

翻译

语言:

大小:

100M<n<1B

预印本库:

arxiv:1911.11378

其他:

CelebA Spanish celebFaces attributes celebFaces+attributes

数字对象标识符:

10.57967/hf/0447

许可:

apache-2.0

数据集介绍文件清单

英文

语料库概述

此语料库包含250000个条目，由一对西班牙语句子及其相似度值（范围为0至1）组成。该语料库被用于训练 sentence-transformer 库，以提高 RoBERTa-large-bne 基础模型的效率。每对句子是 CelebA 数据集中面部的文本描述，先前已被翻译成西班牙语。生成此语料库的过程如下：

首先，将原始英文文本翻译成西班牙语。原始的英文语料库来自于 Text2faceGAN 的工作。
接着，实现了一个算法，该算法从翻译后的语料库中随机选择两个句子，并计算它们的相似度值。使用了 Spacy 来获取每对句子的相似度值。
由于 Spacy 和大多数计算句子相似度的库只能在英文中工作，因此算法的一部分是从原始的英文语料库中额外选择一对句子。最终的 RoBERTa 训练语料库由西班牙文本和相似度得分定义。
将每对由西班牙语句子和相似度值组成的句子，用字符 "|" 分隔，保存为新语料库的条目。

使用该语料库进行 RoBERTa-large-bne + CelebA 的训练，生成了新模型 RoBERTa-celebA-Sp 。

语料库字段

每个语料库条目由以下组成：

句子A: CelebA面部的西班牙语文本描述。
句子B: CelebA面部的西班牙语文本描述。
相似度值: 句子A和句子B的相似度。

每个组件之间用字符 "|" 分隔，结构为：

SentenceA | Sentence B | similarity value

可以根据需要下载带有 .txt 或 .csv 扩展名的文件。

引用信息

引用方式：如果您在工作中使用了 CelebA_RoBERTa_Sp 语料库，请引用？？？？：

许可证

此语料库在 Apache License 2.0 下可用。

作者

Universidad Nacional de Ingeniería ， Ontology Engineering Group ， Universidad Politécnica de Madrid.

贡献者

查看完整的贡献者列表 here 。

作者:

oeg

数据集大小:

159.23 MB