数据集:

HeNLP/HeDC4

语言:

he

大小:

1B<n<10B

预印本库:

arxiv:2304.11077
英文

数据集概述

希伯来语去重和清理过的Common Crawl语料库。这是一个经过彻底清理和近似去重的数据集,用于无监督学习。

引用

如果你在研究中使用了HeDC4数据集,请引用 HeRo: RoBERTa and Longformer Hebrew Language Models

@article{shalumov2023hero,
      title={HeRo: RoBERTa and Longformer Hebrew Language Models}, 
      author={Vitaly Shalumov and Harel Haskey},
      year={2023},
      journal={arXiv:2304.11077},
}