数据集:

larryvrh/WikiMatrix-v1-Ja_Zh-filtered

任务:

翻译

语言:

ja zh

大小:

100K<n<1M
英文

经过过滤和修改的日语/中文语言对数据,来自 WikiMatrix v1

处理步骤:

  • 基本的基于正则表达式的过滤/长度检查,以删除异常对。
  • 基于 sentence-transformers/LaBSE 的语义相似性过滤,阈值为0.6。
  • 使用 zhconv 将所有繁体中文句子转换为简体中文。
  • 以下是过滤和修改后的日语/中文语言对数据,来源于 WikiMatrix v1

    处理步骤:

  • 基于正则表达式的基本过滤/长度检查,以删除异常对。
  • 基于 sentence-transformers/LaBSE 的语义相似性过滤器,阈值为0.6。
  • 使用 zhconv 将所有繁体中文句子转换为简体中文。