数据集:
hackathon-pln-es/neutral-es
西班牙语是一种美丽的语言,它有许多关于人类的方式,中性化性别并利用语言内部的一些资源。一个人可以说“Todas las personas asistentes”而不是“Todos los asistentes”,这样更具包容性地谈论人。此数据集收集了一组手动注释的西班牙语性别中性化转换示例。
此数据集的预期用途是训练一种西班牙语语言模型,用于从有性别标识的句子翻译为中性句子,以实现更加包容的表达。
获得适合性别包容目的的有价值数据集是一个主要挑战,因此,在构建数据集时,团队选择花费大量时间从零开始构建。您可以在此处找到结果。
用于模型训练的数据已经按照来自西班牙卫生,社会服务和平等部颁发的关于使用无性别语言的一系列指南和手册的编制而手动创建。此链接中规定了这些要求。
注意:除了手动注释的样本外,此数据集还通过应用数据增强进一步增加,以生成尽量多的训练示例。
Guía para un discurso igualitario en la universidad de alicante
Buenas prácticas para el tratamiento del lenguaje en igualdad
Guía del lenguaje no sexista de la Universidad de Castilla-La Mancha
Guía para un uso igualitario y no sexista del lenguaje y dela imagen en la Universidad de Jaén
Guía para el uso no sexista de la lengua castellana y de imágnes en la UPV/EHV