数据集:

MaCoCu/parallel_data

任务:

翻译

计算机处理:

translation

大小:

10M<n<100M

语言创建人:

found

批注创建人:

no-annotation

源数据集:

original

许可:

cc0-1.0
英文

license: cc0-1.0

数据集概述

MaCoCu平行语料库的收集是通过爬取得到的,包括源语言和目标语言片段(一个或多个句子)的配对和附加元数据。包含以下元数据:

  • "src_url"和"trg_url":源语言和目标语言文档的URL;
  • "src_text"和"trg_text":非英语和英语中的文本;
  • "bleualign_score":由句子对齐工具Bleualign提供的相似度分数(介于0和1之间);
  • "src_deferred_hash"和"trg_deferred_hash":对应片段的哈希标识符;
  • "src_paragraph_id"和"trg_paragraph_id":段落的标识符,指示该片段在原始文档中的位置;
  • "src_doc_title"和"trg_doc_title":获取片段的文档的标题;
  • "src_crawl_date"和"trg_crawl_date":源语言和目标语言文档下载的日期和时间;
  • "src_file_type"和"trg_file_type":原始文档的类型(通常为HTML格式);
  • "src_boilerplate"和"trg_boilerplate":源语言或目标语言片段是否为模板?
  • "bifixer_hash":片段配对的哈希标识符;
  • "bifixer_score":表示片段在对应语言中是否正确的分数;
  • "bicleaner_ai_score":表示片段是否为平行的分数;
  • "biroamer_entities_detected":片段中是否包含个人信息?
  • "dsi":与数字服务基础设施(DSI)类别(例如网络安全、电子健康、电子司法、开放数据门户)相关的信息;
  • "translation_direction":翻译方向和机器翻译识别("translation-direction"):使用概率模型确定每个片段对的源语言段,还确定翻译是否由机器翻译系统生成;
  • "en_document_level_variant":英语的语言变体(英国式或美国式,使用基于词典的英语变体分类器)在文档和领域级别上被确定;
  • "domain_en":英语文档的网络域名;
  • "en_domain_level_variant":英语在网络域水平的语言变种。

要加载语言对,只需指定数据集和首先是英语的语言对。

dataset = load_dataset("MaCoCu/parallel_data", "en-is")