license: cc0-1.0
数据集概述
MaCoCu平行语料库的收集是通过爬取得到的,包括源语言和目标语言片段(一个或多个句子)的配对和附加元数据。包含以下元数据:
- "src_url"和"trg_url":源语言和目标语言文档的URL;
- "src_text"和"trg_text":非英语和英语中的文本;
- "bleualign_score":由句子对齐工具Bleualign提供的相似度分数(介于0和1之间);
- "src_deferred_hash"和"trg_deferred_hash":对应片段的哈希标识符;
- "src_paragraph_id"和"trg_paragraph_id":段落的标识符,指示该片段在原始文档中的位置;
- "src_doc_title"和"trg_doc_title":获取片段的文档的标题;
- "src_crawl_date"和"trg_crawl_date":源语言和目标语言文档下载的日期和时间;
- "src_file_type"和"trg_file_type":原始文档的类型(通常为HTML格式);
- "src_boilerplate"和"trg_boilerplate":源语言或目标语言片段是否为模板?
- "bifixer_hash":片段配对的哈希标识符;
- "bifixer_score":表示片段在对应语言中是否正确的分数;
- "bicleaner_ai_score":表示片段是否为平行的分数;
- "biroamer_entities_detected":片段中是否包含个人信息?
- "dsi":与数字服务基础设施(DSI)类别(例如网络安全、电子健康、电子司法、开放数据门户)相关的信息;
- "translation_direction":翻译方向和机器翻译识别("translation-direction"):使用概率模型确定每个片段对的源语言段,还确定翻译是否由机器翻译系统生成;
- "en_document_level_variant":英语的语言变体(英国式或美国式,使用基于词典的英语变体分类器)在文档和领域级别上被确定;
- "domain_en":英语文档的网络域名;
- "en_domain_level_variant":英语在网络域水平的语言变种。
要加载语言对,只需指定数据集和首先是英语的语言对。
dataset = load_dataset("MaCoCu/parallel_data", "en-is")