oeg/CelebA_Sent2Vect_Sp | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

数据集:

oeg/CelebA_Sent2Vect_Sp

任务:

表格问答

问答

翻译

语言:

大小:

100M<n<1B

预印本库:

arxiv:1911.11378

其他:

CelebA Spanish celebFaces attributes celebFaces+attributes

数字对象标识符:

10.57967/hf/0446

许可:

apache-2.0

数据集介绍文件清单

英文

语料库概述

该语料库共有192050个条目，由CelebA数据集中脸部的描述性句子组成。语料库的预处理是使用 Text2FaceGAN 算法将CelebA数据集的字幕翻译成西班牙语。具体而言，所有句子都被组合在一起生成更大的语料库。此外，还进行了数据预处理，包括去除停用词、分隔符和对训练无用的补充元素。最后，使用Sent2vec库和语料库进行训练，得到了用于西班牙语句子的编码器模型，特别适用于CelebA数据集的字幕。

通过使用现有语料库进行Sent2vec + CelebA的训练，得到了新模型 Sent2vec-CelebA-Sp 。

语料库字段

每个语料库条目由以下内容组成：

CelebA数据集中经过相应预处理的脸部描述句子。

您可以根据需要以.txt或.csv扩展名下载文件。

引用信息

引用：如果您在工作中使用了CelebA_Sent2vec_Sp语料库，请引用 ????.

许可证

此语料库可在 Apache License 2.0 下使用。

作者

Universidad Nacional de Ingeniería ， Ontology Engineering Group ， Universidad Politécnica de Madrid.

贡献者

请参阅完整的贡献者列表 here 。

作者:

oeg

数据集大小:

57.74 MB