模型:
megagonlabs/transformers-ud-japanese-electra-base-ginza
这是一个预训练模型,基于从 mC4 中提取的约2亿个日本语句子进行训练,并通过 spaCy v3 进行微调。
基础预训练模型为 megagonlabs/transformers-ud-japanese-electra-base-discrimininator ,需要 SudachiTra 进行标记化。
整个spaCy v3模型以一个名为 ja_ginza_electra 的Python软件包的形式从PyPI分发,其中还包括 GiNZA v5 ,该软件包提供一些自定义管道组件以识别日本语的文句(分節)结构。尝试如下运行:
$ pip install ginza ja-ginza-electra $ ginza
该模型根据 MIT License 的条款分发。
根据NINJAL(国立国语研究所)和Megagon Labs Tokyo之间的联合研究协议,允许发布此模型的MIT许可下。
包含来自mC4的信息,该信息根据 ODC Attribution License 提供。
@article{2019t5, author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu}, title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer}, journal = {arXiv e-prints}, year = {2019}, archivePrefix = {arXiv}, eprint = {1910.10683}, }
Asahara, M., Kanayama, H., Tanaka, T., Miyao, Y., Uematsu, S., Mori, S., Matsumoto, Y., Omura, M., & Murawaki, Y. (2018). Universal Dependencies Version 2 for Japanese. In LREC-2018.