模型:
megagonlabs/transformers-ud-japanese-electra-base-ginza
这是一个预训练模型,基于从 mC4 中提取的约2亿个日本语句子进行训练,并通过 spaCy v3 进行微调。
基础预训练模型为 megagonlabs/transformers-ud-japanese-electra-base-discrimininator ,需要 SudachiTra 进行标记化。
整个spaCy v3模型以一个名为 ja_ginza_electra 的Python软件包的形式从PyPI分发,其中还包括 GiNZA v5 ,该软件包提供一些自定义管道组件以识别日本语的文句(分節)结构。尝试如下运行:
$ pip install ginza ja-ginza-electra
$ ginza
该模型根据 MIT License 的条款分发。
根据NINJAL(国立国语研究所)和Megagon Labs Tokyo之间的联合研究协议,允许发布此模型的MIT许可下。
包含来自mC4的信息,该信息根据 ODC Attribution License 提供。
@article{2019t5,
author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
journal = {arXiv e-prints},
year = {2019},
archivePrefix = {arXiv},
eprint = {1910.10683},
}
Asahara, M., Kanayama, H., Tanaka, T., Miyao, Y., Uematsu, S., Mori, S.,
Matsumoto, Y., Omura, M., & Murawaki, Y. (2018).
Universal Dependencies Version 2 for Japanese.
In LREC-2018.