transformers-ud-japanese-electra-ginza-510 (sudachitra-wordpiece, mC4日语)

这是一个在约2亿个日本句子中预训练的模型，这些句子从 mC4 中提取，并由 spaCy v3 进行微调。

基本的预训练模型是 megagonlabs/transformers-ud-japanese-electra-base-discrimininator 。

整个spaCy v3模型被分发为一个名为 ja_ginza_electra 的python包，附带着 GiNZA v5 ，其中提供了一些自定义的管道组件以识别日语的文句结构。尝试按照以下方式运行它：

$ pip install ginza ja_ginza_electra
$ ginza

许可证

这些模型按照 MIT License 的条款进行分发。

致谢

该模型根据NINJAL（国立国语研究所）和Megagon Labs Tokyo之间的联合研究协议，被允许在MIT许可下发布。

引文

包含来自 mC4 的信息，该信息根据 ODC Attribution License 的条款提供。

@article{2019t5,
    author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
    title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
    journal = {arXiv e-prints},
    year = {2019},
    archivePrefix = {arXiv},
    eprint = {1910.10683},
}

UD_Japanese_BCCWJ r2.8

Asahara, M., Kanayama, H., Tanaka, T., Miyao, Y., Uematsu, S., Mori, S.,
Matsumoto, Y., Omura, M., & Murawaki, Y. (2018).
Universal Dependencies Version 2 for Japanese.
In LREC-2018.

GSK2014-A(2019)

作者:

Megagon Labs

数据集大小:

414.48 MB