数据集:

GIL-UNAM/SpanishParaphraseCorpora

语言:

es

大小:

n<1K

许可:

cc0-1.0
英文

:page_with_curl: 西班牙文释义语料库

手工翻译的西班牙文语料库

寿司语料库

corpus 旨在评估一对文本之间的相似性,并评估不同的相似性度量方法,无论是针对整个文档还是个别句子。它围绕一篇与寿司相关的西班牙博客文章的主题构建。要求几个志愿者(本科生、研究生和博士生)有意地改写或释义这篇文章。根据规则,对该文章的释义在两个层面上进行:

  • 低层次:仅词汇变化
  • 高层次:词汇、句法、文本或篇章组织变化以及句子的合并或分离。
  • 无释义:与原始文章相同主题和来源的文本,与寿司相关。
  • 无寿司:与原始文章主题不同,但具有重叠词汇。也就是说,与寿司无关的文本,但与原始文本完全相同。一些志愿者编写了一篇自由文本,使用了与原始文本相同的内容词。

:pencil: 如何引用

如果您使用该语料库,请引用以下文章:

  • Gómez-Adorno H., Bel-Enguix G., Sierra G., Torres-Moreno JM., Martinez R., Serrano P.(2020)Evaluation of Similarity Measures in a Benchmark for Spanish Paraphrasing Detection. In: Martínez-Villaseñor L., Herrera-Alcántara O., Ponce H., Castro-Espinoza F.A.(eds)Advances in Computational Intelligence. MICAI 2020. Lecture Notes in Computer Science, vol 12469. Springer, Cham. https://doi.org/10.1007/978-3-030-60887-3_19

  • Castro, B., Sierra, G., Torres-Moreno, J.M., Da Cunha, I.:El discurso y la semántica como recursos para la detección de similitud textual. In: Proceedings of the III RST Meeting(8th Brazilian Symposium in Information and Human Language Technology, STIL 2011)。Brazilian Computer Society, Cuiabá (2011)

  • 鸣谢

    该工作得到了CONACYT项目A1-S-27780和UNAM-PAPIIT项目IA401219、TA100520、AG400119的部分支持。

    许可证

    CC0 1.0 Universal