模型:
sonoisa/t5-base-japanese
これは日本のコーパスを使って事前学習されたT5(テキストからテキストへの転送トランスフォーマー)モデルです。
以下の日本語コーパス(約100GB)を使用して事前学習されました。
このモデルは事前学習のみが行われており、特定のタスクに使用するにはファインチューニングが必要です。また、大規模コーパスを使用した言語モデルによって生じる、学習データの内容の偏りに起因するバイアスや有害な出力結果の問題が潜在的に存在する可能性があります。これらの問題が発生しないよう注意して使用してください。
SentencePieceトークナイザーの学習には、上記のWikipediaの全データが使用されました。
https://github.com/sonoisa/t5-japanese
livedoorニュースコーパスを使用したニュース記事のジャンル予測タスクの精度は次の通りです。Google製多言語T5モデルと比較して、モデルサイズが25%小さく、6ptほど精度が高いです。
日本語T5( t5-base-japanese 、パラメータ数は222M、 再現用コード )
label | precision | recall | f1-score | support |
---|---|---|---|---|
0 | 0.96 | 0.94 | 0.95 | 130 |
1 | 0.98 | 0.99 | 0.99 | 121 |
2 | 0.96 | 0.96 | 0.96 | 123 |
3 | 0.86 | 0.91 | 0.89 | 82 |
4 | 0.96 | 0.97 | 0.97 | 129 |
5 | 0.96 | 0.96 | 0.96 | 141 |
6 | 0.98 | 0.98 | 0.98 | 127 |
7 | 1.00 | 0.99 | 1.00 | 127 |
8 | 0.99 | 0.97 | 0.98 | 120 |
accuracy | 0.97 | 1100 | ||
macro avg | 0.96 | 0.96 | 0.96 | 1100 |
weighted avg | 0.97 | 0.97 | 0.97 | 1100 |
比較対象: 多言語T5( google/mt5-small 、パラメータ数は300M)
label | precision | recall | f1-score | support |
---|---|---|---|---|
0 | 0.91 | 0.88 | 0.90 | 130 |
1 | 0.84 | 0.93 | 0.89 | 121 |
2 | 0.93 | 0.80 | 0.86 | 123 |
3 | 0.82 | 0.74 | 0.78 | 82 |
4 | 0.90 | 0.95 | 0.92 | 129 |
5 | 0.89 | 0.89 | 0.89 | 141 |
6 | 0.97 | 0.98 | 0.97 | 127 |
7 | 0.95 | 0.98 | 0.97 | 127 |
8 | 0.93 | 0.95 | 0.94 | 120 |
accuracy | 0.91 | 1100 | ||
macro avg | 0.91 | 0.90 | 0.90 | 1100 |
weighted avg | 0.91 | 0.91 | 0.91 | 1100 |
JGLUE ベンチマークの結果は次のとおりです(順次追加)。
本モデルの作者は正確性や安全性などについて保証するものではなく、モデルの出力が正確かどうかや安全であるかについての責任を負いません。モデルやデータセットの作者や所属組織は、利用者が不都合や損害を被った場合でも一切の責任を負いません。利用者は、モデルやデータセットの作者や所属組織が責任を負わないことを明確に認識する責任があります。
Common Crawlの利用規約 も守るようご注意ください。