英語+日本語T5事前学習済みモデル

これは英語と日本語のバランスの取れたコーパスで事前学習されたT5（Text-to-Text Transfer Transformer）モデルです。

次の日本語コーパス（約500GB）を使用して事前学習されました。

Wikipedia の英語ダンプデータ（2022年6月27日時点）
Wikipedia の日本語ダンプデータ（2022年6月27日時点）
OSCAR の日本語コーパス
CC-100 の英語コーパス
CC-100 の日本語コーパス

このモデルは事前学習のみを行ったものであり、特定のタスクに利用するにはファインチューニングする必要があります。本モデルにも、大規模コーパスを用いた言語モデルに伴う学習データの内容の偏りに由来する偏った（倫理的ではなかったり、有害だったり、バイアスがあったりする）出力結果になる問題が潜在的にあります。この問題が発生しうることを想定した上で、被害が発生しない用途にのみ利用するよう気をつけてください。

SentencePieceトークナイザーの学習には、上記WikipediaとCC-100を約10:1の比率で混ぜ、英語と日本語の文字数がほぼ同数になるように調整（文はランダムに抽出）したデータから2650万文選んだデータを用いました。byte-fallbackあり設定で学習しており、実質未知語が発生しません。

転移学習のサンプルコード

https://github.com/sonoisa/t5-japanese

ベンチマーク

準備中

免責事項

本モデルの作者は本モデルを作成するにあたって、その内容、機能等について細心の注意を払っておりますが、モデルの出力が正確であるかどうか、安全なものであるか等について保証をするものではなく、何らの責任を負うものではありません。本モデルの利用により、万一、利用者に何らかの不都合や損害が発生したとしても、モデルやデータセットの作者や作者の所属組織は何らの責任を負うものではありません。利用者には本モデルやデータセットの作者や所属組織が責任を負わないことを明確にする義務があります。

ライセンス

CC-BY SA 4.0

Common Crawlの利用規約も守るようご注意ください。

作者:

Isao Sonobe

数据集大小:

945.3 MB