:page_with_curl: 西班牙文释义语料库

手工翻译的西班牙文语料库

寿司语料库

该 corpus 旨在评估一对文本之间的相似性，并评估不同的相似性度量方法，无论是针对整个文档还是个别句子。它围绕一篇与寿司相关的西班牙博客文章的主题构建。要求几个志愿者（本科生、研究生和博士生）有意地改写或释义这篇文章。根据规则，对该文章的释义在两个层面上进行：

低层次：仅词汇变化
高层次：词汇、句法、文本或篇章组织变化以及句子的合并或分离。
无释义：与原始文章相同主题和来源的文本，与寿司相关。
无寿司：与原始文章主题不同，但具有重叠词汇。也就是说，与寿司无关的文本，但与原始文本完全相同。一些志愿者编写了一篇自由文本，使用了与原始文本相同的内容词。

:pencil: 如何引用

如果您使用该语料库，请引用以下文章：

Gómez-Adorno H., Bel-Enguix G., Sierra G., Torres-Moreno JM., Martinez R., Serrano P.（2020）Evaluation of Similarity Measures in a Benchmark for Spanish Paraphrasing Detection. In: Martínez-Villaseñor L., Herrera-Alcántara O., Ponce H., Castro-Espinoza F.A.（eds）Advances in Computational Intelligence. MICAI 2020. Lecture Notes in Computer Science, vol 12469. Springer, Cham. https://doi.org/10.1007/978-3-030-60887-3_19

Castro, B., Sierra, G., Torres-Moreno, J.M., Da Cunha, I.：El discurso y la semántica como recursos para la detección de similitud textual. In: Proceedings of the III RST Meeting（8th Brazilian Symposium in Information and Human Language Technology, STIL 2011）。Brazilian Computer Society, Cuiabá (2011)

鸣谢

该工作得到了CONACYT项目A1-S-27780和UNAM-PAPIIT项目IA401219、TA100520、AG400119的部分支持。

许可证

CC0 1.0 Universal

作者:

GIL-UNAM

数据集大小:

27.32 MB