英文

WangChanGLM ? - 多语言指令跟随模型的模型卡

WangChanGLM是一个多语言的指令跟随模型,使用开源的、商业可许可的数据集(LAION OIG chip2和infill_dbpedia,DataBricks Dolly v2,OpenAI TL;DR和Hello-SimpleAI HC3;约400,000个示例)对Facebook XGLM-7.5B进行了微调,根据CC-BY SA 4.0发布。该模型训练完成了我们发现的最相关的一部分指令跟随任务,包括阅读理解、头脑风暴和创意写作。我们提供了一个在仅英语数据集上进行微调的模型权重( wangchanglm-7.5B-sft-en ),以及在谷歌翻译的泰语数据集上进一步微调的另一个检查点( wangchanglm-7.5B-sft-enth )。我们使用人类和ChatGPT(在我们的情况下,gpt-3.5-turbo,因为我们仍在等待gpt-4的名单上)进行Vicuna风格的评估,并观察到两种类型的注释者之间存在一些差异。所有的训练和评估代码都在我们的Github上分享,以及数据集和模型权重( HuggingFace )。与 Dolly v2 类似,我们只使用开源的、商业可许可的预训练模型和数据集,我们的模型既没有受到以LLaMA为基础的模型所限制的非商业条款的限制,也没有受到使用ChatGPT的自我指导数据集的模型的非竞争条款的限制。查看我们的实时演示 here

模型来源

使用方式

直接使用

用于阅读理解、头脑风暴和创意写作的指令跟随模型。

下游使用

该模型可以根据任何典型的指令跟随用例进行微调。

超出范围的使用

我们不希望模型在数学问题、推理和事实性问题上表现出色。我们有意地筛选掉这些用例的训练示例。

偏见、风险和局限

我们注意到与其他微调的指令跟随模型类似的局限性,如数学问题、推理和事实性问题。尽管我们不希望模型被滥用,但它们确实包含不可取的偏见和有害内容,应进一步优化以适应您的特定用例。

建议

用户(直接使用和下游使用)应意识到模型的风险、偏见和局限性。需要更多信息以提供进一步的建议。

如何开始使用该模型

使用下面的代码可以开始使用该模型。

model_name = "pythainlp/wangchanglm-7.5B-sft-en"
model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    return_dict=True, 
    load_in_8bit=True ,
    device_map="auto", 
    torch_dtype=torch.float16, 
    offload_folder="./", 
    low_cpu_mem_usage=True,
)
text = "เล่นหุ้นยังไงให้รวย"
tokenizer = AutoTokenizer.from_pretrained(model_name)
batch = tokenizer(text, return_tensors="pt")
with torch.cuda.amp.autocast(): 
  output_tokens = model.generate(
      input_ids=batch["input_ids"],
      max_new_tokens=max_gen_len, # 512
      begin_suppress_tokens = exclude_ids,
      no_repeat_ngram_size=2,
      
      #oasst k50
      top_k=50,
      top_p=top_p, # 0.95
      typical_p=1.,
      temperature=temperature, # 0.9
      
      # #oasst typical3
      # typical_p = 0.3,
      # temperature = 0.8,
      # repetition_penalty = 1.2,
  )
tokenizer.decode(output_tokens[0], skip_special_tokens=True)

训练详情

训练数据

微调数据集来自 LAION OIG chip2 and infill_dbpedia Apache-2.0 ), DataBricks Dolly v2 Apache-2.0 ), OpenAI TL;DR MIT )和 Hello-SimpleAI HC3 CC-BY SA )。

训练过程

预处理

详见 pythainlp/wangchanglm

训练超参数

评估

我们进行了类似于 Vicuna 的自动评估和人工评估。有关更多详细信息,请参阅我们的 blog

环境影响

实验是在私有基础架构上进行的,其碳效率为0.432 kgCO2eq/kWh。使用Tesla V100-SXM2-32GB型号的硬件进行了累计500小时的计算(TDP为300W)。总的排放估计为64.8 CO2eq,其中0%进行了直接抵消。估计使用 MachineLearning Impact calculator 进行了计算。

引用

BibTeX:

@software{charin_polpanumas_2023_7878101,
  author       = {Charin Polpanumas and
                  Wannaphong Phatthiyaphaibun and
                  Patomporn Payoungkhamdee and
                  Peerat Limkonchotiwat and
                  Lalita Lowphansirikul and
                  Can Udomcharoenchaikit and
                  Titipat Achakulwisut and
                  Ekapol Chuangsuwanich and
                  Sarana Nutanong},
  title        = {{WangChanGLM? — The Multilingual Instruction- 
                   Following Model}},
  month        = apr,
  year         = 2023,
  publisher    = {Zenodo},
  version      = {v0.1},
  doi          = {10.5281/zenodo.7878101},
  url          = {https://doi.org/10.5281/zenodo.7878101}
}

模型卡联系方式

PyThaiNLP