数据集:
HeNLP/HeDC4
希伯来语去重和清理过的Common Crawl语料库。这是一个经过彻底清理和近似去重的数据集,用于无监督学习。
如果你在研究中使用了HeDC4数据集,请引用 HeRo: RoBERTa and Longformer Hebrew Language Models 。
@article{shalumov2023hero, title={HeRo: RoBERTa and Longformer Hebrew Language Models}, author={Vitaly Shalumov and Harel Haskey}, year={2023}, journal={arXiv:2304.11077}, }