模型:
cosimoiaia/Loquace-410m
Loquace-410m模型卡
一种专门用于意大利语的、经过指令微调的大型语言模型。??
Loquace意大利语LLM模型是作为概念验证的一部分创建的,以评估使用QLoRa进行语言微调的可行性,该方法使用特定语言的数据集指令微调基础LLM模型。
QLoRa( https://github.com/artidoro/qlora )微调方法大大降低了资源需求,相比其他任何可用方法,这使得可以在显著更大的数据集上轻松执行该过程,同时仍然使用消费者的GPU并实现高精度。
Loquace-410m是Loquace系列中最小的第二个模型。它使用QLoRa在一个包含102,000个仅用意大利语的问题/答案对的大型数据集上训练,基于pythia-410m。
相关代码可以在此找到: https://github.com/cosimoiaia/Loquace
Loquace-410m是Loquace大家族的一部分:
https://huggingface.co/cosimoiaia/Loquace-70m -基于pythia-70m https://huggingface.co/cosimoiaia/Loquace-410m -基于pythia-410m https://huggingface.co/cosimoiaia/Loquace-7B -基于Falcon-7B https://huggingface.co/cosimoiaia/Loquace-12B -基于pythia-12B https://huggingface.co/cosimoiaia/Loquace-20B -基于gpt-neox-20B
from transformers import ( AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig ) tokenizer = AutoTokenizer.from_pretrained("cosimoiaia/Loquace-410m", padding_side="right", use_fast=True) model = AutoModelForCausalLM.from_pretrained( "cosimoiaia/Loquace-410m", load_in_8bit=True, device_map="auto", quantization_config=BitsAndBytesConfig( load_in_4bit=True, llm_int8_has_fp16_weight=False ) )
Loquace-410m在一个包含102,000个意大利语问题/答案对的对话数据集上进行了训练。训练数据是通过将原始alpaca数据集和其他来源(如OpenAssistant数据集)的翻译组合而成的。模型仅进行了10000次迭代训练,在一台单独的RTX 3090上花费了9小时,由Genesis Cloud友情提供。( https://gnsiscld.co/26qhlf )