transformers-ud-japanese-electra-ginza (sudachitra-wordpiece, mC4日本语)

这是一个预训练模型，基于从 mC4 中提取的约2亿个日本语句子进行训练，并通过 spaCy v3 进行微调。

基础预训练模型为 megagonlabs/transformers-ud-japanese-electra-base-discrimininator ，需要 SudachiTra 进行标记化。

整个spaCy v3模型以一个名为 ja_ginza_electra 的Python软件包的形式从PyPI分发，其中还包括 GiNZA v5 ，该软件包提供一些自定义管道组件以识别日本语的文句(分節)结构。尝试如下运行：

$ pip install ginza ja-ginza-electra
$ ginza

Licenses

该模型根据 MIT License 的条款分发。

Acknowledgments

根据NINJAL（国立国语研究所）和Megagon Labs Tokyo之间的联合研究协议，允许发布此模型的MIT许可下。

Citations

包含来自mC4的信息，该信息根据 ODC Attribution License 提供。

@article{2019t5,
    author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
    title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
    journal = {arXiv e-prints},
    year = {2019},
    archivePrefix = {arXiv},
    eprint = {1910.10683},
}

UD_Japanese_BCCWJ r2.8

Asahara, M., Kanayama, H., Tanaka, T., Miyao, Y., Uematsu, S., Mori, S.,
Matsumoto, Y., Omura, M., & Murawaki, Y. (2018).
Universal Dependencies Version 2 for Japanese.
In LREC-2018.

作者:

Megagon Labs

数据集大小:

414.49 MB