英文

? 注意:此存储库正在建设中 ?

待办事项

✅ - 完成

⏳ - 正在处理

  • ✅ 训练新的BBPE分词器
  • ✅ 在TPUv4 Pods上测试训练代码(模型并行)
  • ✅ 转换测试(jax转PyTorch)
  • ✅ 在最小数据集上进行语言模型训练验证(1句子1000步)
  • ⏳ 构建数据混洗器(课程学习)
  • ⏳ 训练7B模型
  • ⏳ 训练13B模型
  • 训练33B模型
  • 训练65B模型

KoLLaMA-13B 模型卡片

KoLLaMA (13B) 使用LLaMA架构通过JAX在韩语/英语/代码数据集上进行训练,感谢 Google TPU Research Cloud program 提供部分计算资源的大力支持。

模型详细信息

研究该模型的研究员

Junbum Lee(又名Beomi)

模型日期

KoLLaMA的训练时间为2022年4月至今

模型版本

这是该模型的 Alpha 版本。

模型类型

LLaMA是一种自回归语言模型,基于Transformer架构。该模型有不同的尺寸:7B、13B、33B和65B个参数。

(此存储库包含13B模型!)

获取更多信息的论文或资源

可以在“LLaMA,开放高效的基础语言模型”一文中找到更多信息,该论文可在 https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/ 获取。

KoAlpaca的更多信息:

[待定]

引文详情

KoLLAMA:[待定]LLAMA: https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/

许可证

MIT

如何发送关于该模型的问题或评论

关于KoLLaMA的问题和评论可以通过项目的 GitHub repository 发送,或者通过提出一个问题。

预期使用方式

主要预期的用途

KoLLaMA 的主要用途是韩语开源大语言模型研究。

主要预期的用户

该模型的主要预期用户是自然语言处理、机器学习和人工智能的研究人员。

不在范围内的用例

LLaMA 是一个基础模型,因此在没有进一步的风险评估和缓解措施的情况下,不应将其用于下游应用。特别是,我们的模型没有经过人类反馈的训练,因此可能会生成有毒、冒犯性的内容、错误的信息或一般上不实用的答案。

因素

相关因素

模型性能可能因使用的语言而有所不同是最相关的因素之一。虽然我们的训练数据包括20种语言,但其中大部分是英文文本,因此我们预期模型在英语方面的表现会更好。相关地,以往的研究表明,不同方言的性能可能会有所不同,我们预计对于我们的模型也是如此。

评估数据集

[待定]

训练数据集

[待定]

道德考虑因素

数据

用于训练模型的数据是从各种来源收集的,主要来自网络。因此,它包含冒犯性、有害和带有偏见的内容。因此,我们预计该模型将表现出这些训练数据的偏见。

人类生命

模型不旨在为重大人类生活事务提供决策支持,也不应以这种方式使用。

风险和危害

大型语言模型的风险和危害包括生成有害、冒犯或有偏见的内容。这些模型往往容易生成不正确的信息,有时被称为幻觉。我们不期望我们的模型在这方面是个例外。

用例

LLaMA是一个基础模型,因此在没有进一步研究和风险缓解的情况下,不应将其用于下游应用。这些风险和潜在的问题用例包括但不限于:生成错误信息和生成有害、有偏见或冒犯性的内容。