数据集:

Bingsu/KcBERT_Pre-Training_Corpus

英文

KcBERT预训练语料库(韩语新闻评论)

KcBERT

beomi/kcbert-base

Github KcBERT Repo: https://github.com/Beomi/KcBERT KcBERT是在此语料库上预训练的韩文评论BERT。 (您可以通过Huggingface的Transformers库使用它!)

此Kaggle数据集包含使用下面的代码进行预处理的已清理数据集。

import re
import emoji
from soynlp.normalizer import repeat_normalize

emojis = ''.join(emoji.UNICODE_EMOJI.keys())
pattern = re.compile(f'[^ .,?!/@$%~%·∼()\x00-\x7Fㄱ-힣{emojis}]+')
url_pattern = re.compile(
    r'https?:\/\/(www\.)?[-a-zA-Z0-9@:%._\+~#=]{1,256}\.[a-zA-Z0-9()]{1,6}\b([-a-zA-Z0-9()@:%_\+.~#?&//=]*)')

def clean(x):
    x = pattern.sub(' ', x)
    x = url_pattern.sub('', x)
    x = x.strip()
    x = repeat_normalize(x, num_repeats=2)
    return x

许可证

CC BY-SA 4.0

数据集结构

数据实例

>>> from datasets import load_dataset

>>> dataset = load_dataset("Bingsu/KcBERT_Pre-Training_Corpus")
>>> dataset
DatasetDict({
    train: Dataset({
        features: ['text'],
        num_rows: 86246285
    })
})

数据大小

下载: 7.90 GiB 生成: 11.86 GiB 总计: 19.76 GiB

※ 您可以从 kaggle 下载此数据集,大小为5 GiB(解压后为12.48 GiB)

数据字段

  • text: string

数据拆分

train
# of texts 86246285