模型:

megagonlabs/transformers-ud-japanese-electra-base-ginza

英文

transformers-ud-japanese-electra-ginza (sudachitra-wordpiece, mC4日本语)

这是一个预训练模型,基于从 mC4 中提取的约2亿个日本语句子进行训练,并通过 spaCy v3 进行微调。

基础预训练模型为 megagonlabs/transformers-ud-japanese-electra-base-discrimininator ,需要 SudachiTra 进行标记化。

整个spaCy v3模型以一个名为 ja_ginza_electra 的Python软件包的形式从PyPI分发,其中还包括 GiNZA v5 ,该软件包提供一些自定义管道组件以识别日本语的文句(分節)结构。尝试如下运行:

$ pip install ginza ja-ginza-electra
$ ginza

Licenses

该模型根据 MIT License 的条款分发。

Acknowledgments

根据NINJAL(国立国语研究所)和Megagon Labs Tokyo之间的联合研究协议,允许发布此模型的MIT许可下。

Citations

包含来自mC4的信息,该信息根据 ODC Attribution License 提供。

@article{2019t5,
    author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
    title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
    journal = {arXiv e-prints},
    year = {2019},
    archivePrefix = {arXiv},
    eprint = {1910.10683},
}
Asahara, M., Kanayama, H., Tanaka, T., Miyao, Y., Uematsu, S., Mori, S.,
Matsumoto, Y., Omura, M., & Murawaki, Y. (2018).
Universal Dependencies Version 2 for Japanese.
In LREC-2018.