MaCoCu/parallel_data | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

数据集:

MaCoCu/parallel_data

任务:

翻译

语言:

计算机处理:

translation

大小:

10M<n<100M

语言创建人:

found

批注创建人:

no-annotation

源数据集:

original

许可:

cc0-1.0

数据集介绍文件清单

英文

license: cc0-1.0

数据集概述

MaCoCu平行语料库的收集是通过爬取得到的，包括源语言和目标语言片段（一个或多个句子）的配对和附加元数据。包含以下元数据：

"src_url"和"trg_url"：源语言和目标语言文档的URL；
"src_text"和"trg_text"：非英语和英语中的文本；
"bleualign_score"：由句子对齐工具Bleualign提供的相似度分数（介于0和1之间）；
"src_deferred_hash"和"trg_deferred_hash"：对应片段的哈希标识符；
"src_paragraph_id"和"trg_paragraph_id"：段落的标识符，指示该片段在原始文档中的位置；
"src_doc_title"和"trg_doc_title"：获取片段的文档的标题；
"src_crawl_date"和"trg_crawl_date"：源语言和目标语言文档下载的日期和时间；
"src_file_type"和"trg_file_type"：原始文档的类型（通常为HTML格式）；
"src_boilerplate"和"trg_boilerplate"：源语言或目标语言片段是否为模板？
"bifixer_hash"：片段配对的哈希标识符；
"bifixer_score"：表示片段在对应语言中是否正确的分数；
"bicleaner_ai_score"：表示片段是否为平行的分数；
"biroamer_entities_detected"：片段中是否包含个人信息？
"dsi"：与数字服务基础设施（DSI）类别（例如网络安全、电子健康、电子司法、开放数据门户）相关的信息；
"translation_direction"：翻译方向和机器翻译识别（"translation-direction"）：使用概率模型确定每个片段对的源语言段，还确定翻译是否由机器翻译系统生成；
"en_document_level_variant"：英语的语言变体（英国式或美国式，使用基于词典的英语变体分类器）在文档和领域级别上被确定；
"domain_en"：英语文档的网络域名；
"en_domain_level_variant"：英语在网络域水平的语言变种。

要加载语言对，只需指定数据集和首先是英语的语言对。

dataset = load_dataset("MaCoCu/parallel_data", "en-is")

作者:

MaCoCu

数据集大小:

396.77 MB