模型:
sonoisa/t5-base-japanese-v1.1
これは日本のコーパスを使用して事前学習されたT5(テキストからテキストへの転送トランスフォーマー)モデルです。
このモデルは、以下の日本語コーパス(約100GB)を使用して事前学習されました。
このモデルは事前学習のみを行っており、特定のタスクに利用するにはファインチューニングが必要です。また、大規模コーパスを使用した言語モデルには、学習データの内容に偏りがあるため、倫理的に問題がある、有害な、バイアスのある出力結果が潜在的に生じる可能性があります。この問題が発生する可能性があることを前提に、利用する目的に応じて注意してください。
SentencePieceトークナイザーの学習には、上記のWikipediaとCC-100のデータを約10:1の比率で混ぜたデータを使用しました。byte-fallbackありの設定で学習し、実質的に未知語が発生しません。
https://github.com/sonoisa/t5-japanese
準備中
本モデルの作者は、本モデルの内容や機能について細心の注意を払って作成していますが、モデルの出力の正確性や安全性などについては保証せず、責任を負いません。本モデルの利用により、利用者に何らかの不都合や損害が発生した場合でも、モデルやデータセットの作者、所属組織は一切の責任を負いません。利用者は、モデルやデータセットの作者や所属組織が責任を負わないことを明確に理解する義務があります。
Common Crawlの利用規約 も守るようご注意ください。