英文

语料库概述

该语料库共有192050个条目,由CelebA数据集中脸部的描述性句子组成。语料库的预处理是使用 Text2FaceGAN 算法将CelebA数据集的字幕翻译成西班牙语。具体而言,所有句子都被组合在一起生成更大的语料库。此外,还进行了数据预处理,包括去除停用词、分隔符和对训练无用的补充元素。最后,使用Sent2vec库和语料库进行训练,得到了用于西班牙语句子的编码器模型,特别适用于CelebA数据集的字幕。

通过使用现有语料库进行Sent2vec + CelebA的训练,得到了新模型 Sent2vec-CelebA-Sp

语料库字段

每个语料库条目由以下内容组成:

  • CelebA数据集中经过相应预处理的脸部描述句子。

您可以根据需要以.txt或.csv扩展名下载文件。

引用信息

引用:如果您在工作中使用了CelebA_Sent2vec_Sp语料库,请引用 ????.

许可证

此语料库可在 Apache License 2.0 下使用。

作者

Universidad Nacional de Ingeniería Ontology Engineering Group Universidad Politécnica de Madrid.

贡献者

请参阅完整的贡献者列表 here