日本語T5事前学習済みモデル

これは日本のコーパスを使って事前学習されたT5（テキストからテキストへの転送トランスフォーマー）モデルです。

以下の日本語コーパス（約100GB）を使用して事前学習されました。

Wikipedia の日本語ダンプデータ（2020年7月6日時点）
OSCAR の日本語コーパス
CC-100 の日本語コーパス

このモデルは事前学習のみが行われており、特定のタスクに使用するにはファインチューニングが必要です。また、大規模コーパスを使用した言語モデルによって生じる、学習データの内容の偏りに起因するバイアスや有害な出力結果の問題が潜在的に存在する可能性があります。これらの問題が発生しないよう注意して使用してください。

SentencePieceトークナイザーの学習には、上記のWikipediaの全データが使用されました。

転移学習のサンプルコード

https://github.com/sonoisa/t5-japanese

ベンチマーク

livedoorニュース分類タスク

livedoorニュースコーパスを使用したニュース記事のジャンル予測タスクの精度は次の通りです。Google製多言語T5モデルと比較して、モデルサイズが25%小さく、6ptほど精度が高いです。

日本語T5（ t5-base-japanese 、パラメータ数は222M、再現用コード）

label	precision	recall	f1-score	support
0	0.96	0.94	0.95	130
1	0.98	0.99	0.99	121
2	0.96	0.96	0.96	123
3	0.86	0.91	0.89	82
4	0.96	0.97	0.97	129
5	0.96	0.96	0.96	141
6	0.98	0.98	0.98	127
7	1.00	0.99	1.00	127
8	0.99	0.97	0.98	120
accuracy	0.97	1100
macro avg	0.96	0.96	0.96	1100
weighted avg	0.97	0.97	0.97	1100

比較対象: 多言語T5（ google/mt5-small 、パラメータ数は300M）

label	precision	recall	f1-score	support
0	0.91	0.88	0.90	130
1	0.84	0.93	0.89	121
2	0.93	0.80	0.86	123
3	0.82	0.74	0.78	82
4	0.90	0.95	0.92	129
5	0.89	0.89	0.89	141
6	0.97	0.98	0.97	127
7	0.95	0.98	0.97	127
8	0.93	0.95	0.94	120
accuracy	0.91	1100
macro avg	0.91	0.90	0.90	1100
weighted avg	0.91	0.91	0.91	1100

JGLUEベンチマーク

JGLUE ベンチマークの結果は次のとおりです（順次追加）。

MARC-ja: 準備中
JSTS: 準備中
JNLI: 準備中
JSQuAD: EM=0.900, F1=0.945, 再現用コード
JCommonsenseQA: 準備中

免責事項

本モデルの作者は正確性や安全性などについて保証するものではなく、モデルの出力が正確かどうかや安全であるかについての責任を負いません。モデルやデータセットの作者や所属組織は、利用者が不都合や損害を被った場合でも一切の責任を負いません。利用者は、モデルやデータセットの作者や所属組織が責任を負わないことを明確に認識する責任があります。

ライセンス

CC-BY SA 4.0

Common Crawlの利用規約も守るようご注意ください。

作者:

Isao Sonobe

数据集大小:

1.66 GB