模型:

philschmid/instruct-igel-001

英文

IGEL: 面向文本的德语大型语言模型

IGEL是专为德语开发的LLM模型系列。第一个版本的IGEL是基于 BigScience BLOOM 构建的,并适应了 German from Malte Ostendorff 。IGEL旨在为各种自然语言理解任务提供准确可靠的语言理解能力,包括情感分析、语言翻译和问答。

您可以在 igel-playground 上尝试该模型。

IGEL系列目前包括 instruct-igel-001 和 chat-igel-001(即将推出)。

模型描述

LoRA调整 BLOOM-CLP German (6.4B parameters) 并合并权重。001 是一个简单的测试,旨在确定是否可以使用一个小型的、未经训练的LLM和一个简单的翻译数据集创建一个德语指令调整模型。该测试的目标是探索基于指令回应的语言建模任务中BLOOM架构的潜力。

为了实现这个目标,我们使用了一个经过训练有限的预训练LLM模型,并使用一个简单的指令翻译数据集进行微调。数据集是通过将英语指令翻译成德语来创建的,使用自动翻译工具进行翻译。虽然这种方法可能会在翻译内容中引入错误,但我们想测试该模型是否仍然能够学习在多种语言中生成基于指令的回应。

训练数据

instruct-igel-001 是在简单翻译的指令数据集上进行训练,没有进行太多的后处理。

已知限制

instruct-igel-001 还展示了语言模型的几个常见缺点,包括错误的生成、有害信息和固定思维。

例如,在下图中,instruct-igel-001 错误地说德国的“cancelor”(应为“cancelLer”)是安格拉·默克尔。

训练过程

即将推出

如何使用

您可以在此LLM游乐场中测试该模型。

即将推出