数据集:
yhavinga/ccmatrix
该语料库是使用 https://github.com/facebookresearch/LASER/tree/master/tasks/CCMatrix 中描述的基于边缘的双语挖掘技术从网络爬行中提取的。
[需要更多信息]
为所有语言对的两个方向生成了配置。您可以在数据集描述的主页部分找到有效的语言对: https://opus.nlpl.eu/CCMatrix.php 。例如
from datasets import load_dataset dataset = load_dataset("yhavinga/ccmatrix", "en-nl", streaming=True)
这将在流模式下打开 en-nl 数据集。如果不使用流模式,则下载和准备需要花费数十分钟。您可以使用以下命令检查元素:
print(next(iter(dataset['train']))) {'id': 0, 'score': 1.2499677, 'translation': {'en': 'They come from all parts of Egypt, just like they will at the day of His coming.', 'nl': 'Zij kwamen uit alle delen van Egypte, evenals zij op de dag van Zijn komst zullen doen.'}}
例如:
{ "id": 1, "score": 1.2498379, "translation": { "nl": "En we moeten elke waarheid vals noemen die niet minstens door een lach vergezeld ging.”", "en": "And we should call every truth false which was not accompanied by at least one laugh.”" } }
每个示例都包含一个从0开始的整数id、一个分数和一个翻译字典,其中包含语言1和语言2的文本。
仅提供了一个训练集。
[需要更多信息]
[需要更多信息]
初始数据收集和规范化[需要更多信息]
源语言制作人是谁?[需要更多信息]
[需要更多信息]
注释过程[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
如果您使用此数据,请参考引用文献[2][3]。
这个 HuggingFace CCMatrix 数据集是对 OPUS 进行包装的,其服务和文件由 Jörg Tiedemann 准备和托管: