llm-japanese-dataset-vanilla

用于构建LLM的日语聊天数据集

这是从 izumi-lab/llm-japanese-dataset 中提取出的不包含日英翻译数据集等内容。

主要用于对日语LLM模型等进行调优使用，例如通过LoRA进行聊天（指令）回答任务。

※我们使用了各种公开的语言资源，特此致谢。

数据详细信息

关于数据的详细信息，请参考与 izumi-lab/llm-japanese-dataset 相关的以下论文。

日本语： https://jxiv.jst.go.jp/index.php/jxiv/preprint/view/383
英语： https://arxiv.org/abs/2305.12720
GitHub： https://github.com/masanorihirano/llm-japanese-dataset
最新信息： llm.msuzuki.me 。

另外，如果方便的话，请在引用时使用以下内容。

@preprint{Suzuki2023-llmj,
  title={{日本語インストラクションデータを用いた対話可能な日本語大規模言語モデルのLoRAチューニング}},
  author={鈴木 雅弘 and 平野 正徳 and 坂地 泰紀},
  doi={10.51094/jxiv.422},
  archivePrefix={Jxiv},
  year={2023}
}

共同研究、数据提供、各种支持和其他咨询，请发送至izumi-llm@socsim.org。

使用方法

from datasets import load_dataset
dataset = load_dataset("izumi-lab/llm-japanese-dataset-vanilla", revision="0.1.0")
print(dataset.num_rows)
# {'train': 1811964}
dataset = load_dataset("izumi-lab/llm-japanese-dataset-vanilla", revision="1.0.0")
print(dataset.num_rows)
# {'train': 2515626}

v0.1.0 包含 1,811,964 条数据，v1.0.0 包含 2,515,626 条数据。

更多细节，请参见： https://github.com/masanorihirano/llm-japanese-dataset/tree/vanilla 。

LICENSE

CC-BY-SA 4.0（更多详情，请参见：LICENSE、NOTICE.md、NOTICE2.md）

Note

要查看更多最新信息，请访问 llm.msuzuki.me 。

作者:

izumi-lab

数据集大小:

1.09 GB