模型:

beomi/kollama-7b

任务:

文本生成

类库:

PyTorch Safetensors Transformers

语言:

其他:

llama KoLLAMA KoreanGPT text-generation-inference

许可:

mit

模型介绍文件清单

英文

? 注意：此仓库正在建设中 ?

待办事项

✅ - 完成

⏳ - 目前正在处理

✅ 训练新的BBPE 分词器
✅ 在 TPUv4 Pods 上测试训练代码（使用模型并行）
✅ 转换测试（jax 转 PyTorch）
✅ 在最小数据集上进行语言模型训练验证（1个句子1000步）
⏳ 构建数据混洗器（课程学习）
⏳ 训练 7B 模型
训练 13B 模型
训练 33B 模型
训练 65B 模型

KoLLaMA 模型卡片

KoLLaMA (7B) 是基于 LLaMA 架构在韩文/英文/代码数据集上通过 JAX 训练得到的模型，感谢 Google TPU Research Cloud program 提供部分计算资源的支持。

模型详细信息

开发模型的研究人员

Junbum Lee (又名 Beomi)

模型日期

KoLLaMA 的训练日期为2022.04~

模型版本

这是模型的 alpha 版本。

模型类型

LLaMA 是一种自回归语言模型，基于 Transformer 架构。该模型有不同大小的版本：7B、13B、33B 和 65B 参数。

（本仓库包含 7B 模型！）

更多信息和资源，请参阅 “LLaMA, Open and Efficient Foundation Language Models” 论文，网址为 https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/ 。

针对 KoAlpaca 的更多信息：

[待定]

引用详细信息

KoLLAMA: [待定]LLAMA: https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/

许可证

MIT

有关模型的问题或意见发送位置

关于 KoLLaMA 的问题和意见可以通过项目的 GitHub repository 发送，或者通过提交问题进行反馈。

预期用途

主要预期用途

KoLLaMA 的主要用途是研究韩文开源大型语言模型。

主要预期用户

模型的主要预期用户是自然语言处理、机器学习和人工智能领域的研究人员。

不在范围内的用例

LLaMA 是一个基础模型。因此，在没有进一步的风险评估和减轻措施的情况下，不应将其用于下游应用。特别是，我们的模型并未经过人工反馈训练，因此可能生成具有毒性或冒犯性的内容、错误信息或一般无用的回答。

因素

评估数据集

[待定]

训练数据集

[待定]

道德考虑

数据

用于训练模型的数据来自各种来源，主要是网络。因此，数据中包含冒犯性、有害和有偏见的内容。因此，我们预计模型将展现出这些训练数据的偏见。

人类生命

该模型不能用于决策人类生活中的重要事项，并且不应以这种方式使用。

风险和危害

大型语言模型的风险和危害包括生成有害、冒犯或有偏见的内容。这些模型往往容易生成错误信息，有时被称为幻觉。我们不认为我们的模型在这方面会例外。

用例

LLaMA 是一种基础模型，因此，不应在没有进一步调查和风险减轻措施的情况下将其用于下游应用。这些风险和潜在的问题用例包括但不限于：生成错误信息和生成有害、有偏见或冒犯性的内容。

作者:

L. Junbum

数据集大小:

25.72 GB