日本語T5事前学習済みモデル

これは日本のコーパスを使用して事前学習されたT5（テキストからテキストへの転送トランスフォーマー）モデルです。

このモデルは、以下の日本語コーパス（約100GB）を使用して事前学習されました。

Wikipedia の日本語ダンプデータ（2022年6月27日時点）
OSCAR の日本語コーパス
CC-100 の日本語コーパス

このモデルは事前学習のみを行っており、特定のタスクに利用するにはファインチューニングが必要です。また、大規模コーパスを使用した言語モデルには、学習データの内容に偏りがあるため、倫理的に問題がある、有害な、バイアスのある出力結果が潜在的に生じる可能性があります。この問題が発生する可能性があることを前提に、利用する目的に応じて注意してください。

SentencePieceトークナイザーの学習には、上記のWikipediaとCC-100のデータを約10：1の比率で混ぜたデータを使用しました。byte-fallbackありの設定で学習し、実質的に未知語が発生しません。

転移学習のサンプルコード

https://github.com/sonoisa/t5-japanese

ベンチマーク

準備中

免責事項

本モデルの作者は、本モデルの内容や機能について細心の注意を払って作成していますが、モデルの出力の正確性や安全性などについては保証せず、責任を負いません。本モデルの利用により、利用者に何らかの不都合や損害が発生した場合でも、モデルやデータセットの作者、所属組織は一切の責任を負いません。利用者は、モデルやデータセットの作者や所属組織が責任を負わないことを明確に理解する義務があります。

ライセンス

CC-BY SA 4.0

Common Crawlの利用規約も守るようご注意ください。

作者:

Isao Sonobe

数据集大小:

945.29 MB