数据集:
Bingsu/KcBERT_Pre-Training_Corpus
语言:
ko计算机处理:
monolingual大小:
10M<n<100M语言创建人:
crowdsourced批注创建人:
no-annotation源数据集:
original许可:
cc-by-sa-4.0Github KcBERT Repo: https://github.com/Beomi/KcBERT KcBERT是在此语料库上预训练的韩文评论BERT。 (您可以通过Huggingface的Transformers库使用它!)
此Kaggle数据集包含使用下面的代码进行预处理的已清理数据集。
import re import emoji from soynlp.normalizer import repeat_normalize emojis = ''.join(emoji.UNICODE_EMOJI.keys()) pattern = re.compile(f'[^ .,?!/@$%~%·∼()\x00-\x7Fㄱ-힣{emojis}]+') url_pattern = re.compile( r'https?:\/\/(www\.)?[-a-zA-Z0-9@:%._\+~#=]{1,256}\.[a-zA-Z0-9()]{1,6}\b([-a-zA-Z0-9()@:%_\+.~#?&//=]*)') def clean(x): x = pattern.sub(' ', x) x = url_pattern.sub('', x) x = x.strip() x = repeat_normalize(x, num_repeats=2) return x
>>> from datasets import load_dataset >>> dataset = load_dataset("Bingsu/KcBERT_Pre-Training_Corpus") >>> dataset DatasetDict({ train: Dataset({ features: ['text'], num_rows: 86246285 }) })
下载: 7.90 GiB 生成: 11.86 GiB 总计: 19.76 GiB
※ 您可以从 kaggle 下载此数据集,大小为5 GiB(解压后为12.48 GiB)
train | |
---|---|
# of texts | 86246285 |