手工翻译的西班牙文语料库
该 corpus 旨在评估一对文本之间的相似性,并评估不同的相似性度量方法,无论是针对整个文档还是个别句子。它围绕一篇与寿司相关的西班牙博客文章的主题构建。要求几个志愿者(本科生、研究生和博士生)有意地改写或释义这篇文章。根据规则,对该文章的释义在两个层面上进行:
如果您使用该语料库,请引用以下文章:
Gómez-Adorno H., Bel-Enguix G., Sierra G., Torres-Moreno JM., Martinez R., Serrano P.(2020)Evaluation of Similarity Measures in a Benchmark for Spanish Paraphrasing Detection. In: Martínez-Villaseñor L., Herrera-Alcántara O., Ponce H., Castro-Espinoza F.A.(eds)Advances in Computational Intelligence. MICAI 2020. Lecture Notes in Computer Science, vol 12469. Springer, Cham. https://doi.org/10.1007/978-3-030-60887-3_19
Castro, B., Sierra, G., Torres-Moreno, J.M., Da Cunha, I.:El discurso y la semántica como recursos para la detección de similitud textual. In: Proceedings of the III RST Meeting(8th Brazilian Symposium in Information and Human Language Technology, STIL 2011)。Brazilian Computer Society, Cuiabá (2011)
该工作得到了CONACYT项目A1-S-27780和UNAM-PAPIIT项目IA401219、TA100520、AG400119的部分支持。