数据集:
izumi-lab/llm-japanese-dataset
LLM構築用の日本語インストラクション(チャット)データセット
主に、英語で構築されたLLMモデルなどに対して、チャット(Instruction)応答タスクに関してLoRAなどでチューニングするために使用できます.
※様々な公開言語資源を利用させていただきました.関係各位にはこの場を借りて御礼申し上げます.
5/15にAlpaca datasetがNCにライセンス変更されたことに対応し、安心してご利用いただけるように、データセットから当該データセットをドロップしました.v1.0.1にて、ドロップ後のデータセットをご利用いただけます.
データの詳細は、以下の論文を参照してください.
なお、Citationには、よろしければ、以下をご利用ください.
@preprint{Hirano2023-llmj, title={{llm-japanese-dataset v0: Construction of Japanese Chat Dataset for Large Language Models and its Methodology}}, autor={Masanori HIRANO and Masahiro SUZUKI and Hiroki SAKAJI}, doi={10.48550/arXiv.2305.12720}, archivePrefix={arXiv}, arxivId={2305.12720}, year={2023} }
共同研究,データ提供,各種支援,その他問い合わせは、izumi-llm@socsim.org へ.
from datasets import load_dataset dataset = load_dataset("izumi-lab/llm-japanese-dataset", revision="main") dataset = load_dataset("izumi-lab/llm-japanese-dataset", revision="a.b.c") # for specific version
For more details, see: https://github.com/masanorihirano/llm-japanese-dataset
CC-BY-SA 4.0(For more details, see: LICENSE, NOTICE.md, NOTICE2.md)
MIT License version is also available on the github release page https://github.com/masanorihirano/llm-japanese-dataset/releases
To see more latest information, please go to llm.msuzuki.me .
对以上内容翻译成中文,不要翻译大写的英文, 保留a标签以及所有属性,按照此约束返回翻译后的中文