transformers-ud-japanese-electra-ginza (sudachitra-wordpiece, mC4 Japanese) - MIYAGINO

这是一个在大约2亿日语句子上进行预训练的 ELECTRA 模型。

输入文本由 SudachiTra 进行标记化，使用WordPiece子词标记器。有关设置详细信息，请参阅tokenizer_config.json。

如何使用

from transformers import ElectraModel
from sudachitra import ElectraSudachipyTokenizer
model = ElectraModel.from_pretrained("megagonlabs/transformers-ud-japanese-electra-base-discriminator")
tokenizer = ElectraSudachipyTokenizer.from_pretrained("megagonlabs/transformers-ud-japanese-electra-base-discriminator")
model(**tokenizer("まさにオールマイティーな商品だ。", return_tensors="pt")).last_hidden_state
tensor([[[-0.0498, -0.0285,  0.1042,  ...,  0.0062, -0.1253,  0.0338],
         [-0.0686,  0.0071,  0.0087,  ..., -0.0210, -0.1042, -0.0320],
         [-0.0636,  0.1465,  0.0263,  ...,  0.0309, -0.1841,  0.0182],
         ...,
         [-0.1500, -0.0368, -0.0816,  ..., -0.0303, -0.1653,  0.0650],
         [-0.0457,  0.0770, -0.0183,  ..., -0.0108, -0.1903,  0.0694],
         [-0.0981, -0.0387,  0.1009,  ..., -0.0150, -0.0702,  0.0455]]],
       grad_fn=<NativeLayerNormBackward>)

模型体系结构

模型体系结构与原始ELECTRA基础模型相同；12层，768维隐藏状态和12个注意力头。

训练数据和库

此模型是在 mC4 Common Crawl的多语言网络爬行语料库中提取的日语文本上进行训练的。我们使用 Sudachi 将文本拆分为句子，并应用了一个简单的基于规则的过滤器来删除mC4多语言语料库中的非语言段落。提取的文本总共包含超过6亿个句子，我们使用了约2亿个句子进行预训练。

我们使用 NVIDIA's TensorFlow2-based ELECTRA implementation 进行预训练。在启用自动混合精度的情况下，使用GCP DGX A100 8 GPU实例进行预训练需要大约110小时。

许可证

预训练模型以 MIT License 的条款分发。

引用

包含来自mC4的信息，其根据 ODC Attribution License 提供。

@article{2019t5,
    author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
    title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
    journal = {arXiv e-prints},
    year = {2019},
    archivePrefix = {arXiv},
    eprint = {1910.10683},
}

作者:

Megagon Labs

数据集大小:

416.74 MB