数据集:

izumi-lab/llm-japanese-dataset-vanilla

预印本库:

arxiv:2305.12720

大小:

1M<n<10M

语言:

ja
英文

llm-japanese-dataset-vanilla

用于构建LLM的日语聊天数据集

这是从 izumi-lab/llm-japanese-dataset 中提取出的不包含日英翻译数据集等内容。

主要用于对日语LLM模型等进行调优使用,例如通过LoRA进行聊天(指令)回答任务。

※我们使用了各种公开的语言资源,特此致谢。

数据详细信息

关于数据的详细信息,请参考与 izumi-lab/llm-japanese-dataset 相关的以下论文。

另外,如果方便的话,请在引用时使用以下内容。

@preprint{Suzuki2023-llmj,
  title={{日本語インストラクションデータを用いた対話可能な日本語大規模言語モデルのLoRAチューニング}},
  author={鈴木 雅弘 and 平野 正徳 and 坂地 泰紀},
  doi={10.51094/jxiv.422},
  archivePrefix={Jxiv},
  year={2023}
}

共同研究、数据提供、各种支持和其他咨询,请发送至izumi-llm@socsim.org。

使用方法

from datasets import load_dataset
dataset = load_dataset("izumi-lab/llm-japanese-dataset-vanilla", revision="0.1.0")
print(dataset.num_rows)
# {'train': 1811964}
dataset = load_dataset("izumi-lab/llm-japanese-dataset-vanilla", revision="1.0.0")
print(dataset.num_rows)
# {'train': 2515626}

v0.1.0 包含 1,811,964 条数据,v1.0.0 包含 2,515,626 条数据。

更多细节,请参见: https://github.com/masanorihirano/llm-japanese-dataset/tree/vanilla

LICENSE

CC-BY-SA 4.0(更多详情,请参见:LICENSE、NOTICE.md、NOTICE2.md)

Note

要查看更多最新信息,请访问 llm.msuzuki.me