数据集:

hackathon-pln-es/neutral-es

语言:

es

计算机处理:

monolingual

大小:

1K<n<10K
英文

西班牙语中的性别中性化

西班牙语是一种美丽的语言,它有许多关于人类的方式,中性化性别并利用语言内部的一些资源。一个人可以说“Todas las personas asistentes”而不是“Todos los asistentes”,这样更具包容性地谈论人。此数据集收集了一组手动注释的西班牙语性别中性化转换示例。

此数据集的预期用途是训练一种西班牙语语言模型,用于从有性别标识的句子翻译为中性句子,以实现更加包容的表达。

编译的来源

获得适合性别包容目的的有价值数据集是一个主要挑战,因此,在构建数据集时,团队选择花费大量时间从零开始构建。您可以在此处找到结果。

用于模型训练的数据已经按照来自西班牙卫生,社会服务和平等部颁发的关于使用无性别语言的一系列指南和手册的编制而手动创建。此链接中规定了这些要求。

注意:除了手动注释的样本外,此数据集还通过应用数据增强进一步增加,以生成尽量多的训练示例。

团队成员

请尽情使用并随时与此数据集合作 ?