数据集:
izumi-lab/llm-japanese-dataset-vanilla
用于构建LLM的日语聊天数据集
这是从 izumi-lab/llm-japanese-dataset 中提取出的不包含日英翻译数据集等内容。
主要用于对日语LLM模型等进行调优使用,例如通过LoRA进行聊天(指令)回答任务。
※我们使用了各种公开的语言资源,特此致谢。
关于数据的详细信息,请参考与 izumi-lab/llm-japanese-dataset 相关的以下论文。
另外,如果方便的话,请在引用时使用以下内容。
@preprint{Suzuki2023-llmj, title={{日本語インストラクションデータを用いた対話可能な日本語大規模言語モデルのLoRAチューニング}}, author={鈴木 雅弘 and 平野 正徳 and 坂地 泰紀}, doi={10.51094/jxiv.422}, archivePrefix={Jxiv}, year={2023} }
共同研究、数据提供、各种支持和其他咨询,请发送至izumi-llm@socsim.org。
from datasets import load_dataset dataset = load_dataset("izumi-lab/llm-japanese-dataset-vanilla", revision="0.1.0") print(dataset.num_rows) # {'train': 1811964} dataset = load_dataset("izumi-lab/llm-japanese-dataset-vanilla", revision="1.0.0") print(dataset.num_rows) # {'train': 2515626}
v0.1.0 包含 1,811,964 条数据,v1.0.0 包含 2,515,626 条数据。
更多细节,请参见: https://github.com/masanorihirano/llm-japanese-dataset/tree/vanilla 。
CC-BY-SA 4.0(更多详情,请参见:LICENSE、NOTICE.md、NOTICE2.md)
要查看更多最新信息,请访问 llm.msuzuki.me 。