模型:
megagonlabs/transformers-ud-japanese-electra-base-discriminator
这是一个在大约2亿日语句子上进行预训练的 ELECTRA 模型。
输入文本由 SudachiTra 进行标记化,使用WordPiece子词标记器。有关设置详细信息,请参阅tokenizer_config.json。
from transformers import ElectraModel from sudachitra import ElectraSudachipyTokenizer model = ElectraModel.from_pretrained("megagonlabs/transformers-ud-japanese-electra-base-discriminator") tokenizer = ElectraSudachipyTokenizer.from_pretrained("megagonlabs/transformers-ud-japanese-electra-base-discriminator") model(**tokenizer("まさにオールマイティーな商品だ。", return_tensors="pt")).last_hidden_state tensor([[[-0.0498, -0.0285, 0.1042, ..., 0.0062, -0.1253, 0.0338], [-0.0686, 0.0071, 0.0087, ..., -0.0210, -0.1042, -0.0320], [-0.0636, 0.1465, 0.0263, ..., 0.0309, -0.1841, 0.0182], ..., [-0.1500, -0.0368, -0.0816, ..., -0.0303, -0.1653, 0.0650], [-0.0457, 0.0770, -0.0183, ..., -0.0108, -0.1903, 0.0694], [-0.0981, -0.0387, 0.1009, ..., -0.0150, -0.0702, 0.0455]]], grad_fn=<NativeLayerNormBackward>)
模型体系结构与原始ELECTRA基础模型相同;12层,768维隐藏状态和12个注意力头。
此模型是在 mC4 Common Crawl的多语言网络爬行语料库中提取的日语文本上进行训练的。我们使用 Sudachi 将文本拆分为句子,并应用了一个简单的基于规则的过滤器来删除mC4多语言语料库中的非语言段落。提取的文本总共包含超过6亿个句子,我们使用了约2亿个句子进行预训练。
我们使用 NVIDIA's TensorFlow2-based ELECTRA implementation 进行预训练。在启用自动混合精度的情况下,使用GCP DGX A100 8 GPU实例进行预训练需要大约110小时。
预训练模型以 MIT License 的条款分发。
包含来自mC4的信息,其根据 ODC Attribution License 提供。
@article{2019t5, author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu}, title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer}, journal = {arXiv e-prints}, year = {2019}, archivePrefix = {arXiv}, eprint = {1910.10683}, }