模型:

facebook/opt-iml-max-1.3b

英文

OPT-IML

模型说明

OPT-IML (OPT + Instruction Meta-Learning) 是一组根据 OPT 上的一系列指令进行调整的版本,收集自 OPT-IML Bench,该基准包含 ~2000 个来自 8 个 NLP 基准测试的 NLP 任务。

我们提供两个模型版本:

  • OPT-IML 经过在 1500 个任务上训练,在部分任务上进行了下游评估,
  • OPT-IML-Max 在全部 ~2000 个任务上训练。

如何使用

您可以直接将模型与文本生成的流程一起使用。

>>> from transformers import pipeline

>>> generator = pipeline('text-generation', model="facebook/opt-iml-max-1.3b")

>>> generator("What is the capital of USA?")

限制和偏差

虽然 OPT-IML 模型在广泛的评估中表现优于基准 OPT ,但它们仍然会受到使用大型语言模型的各种风险的影响,如事实的准确性、生成有害语言和强化刻板印象。虽然我们发布 OPT-IML 模型以促进未来在指令调整方面的工作,并改善大型指令调整的因果语言模型的可用性,但在使用这些模型时,应遵守负责任的最佳实践。

训练数据

OPT-IML 模型是在 OPT-IML Bench 上训练的,这是一个包含 2000 个 NLP 任务的指令元学习(IML)大型基准,任务类型来自于 8 个现有基准,包括 Super-NaturalInstructions、FLAN、PromptSource 等。

训练过程

使用 GPT2 字节级版本的 Byte Pair Encoding (BPE) 对文本进行标记化处理(用于 Unicode 字符),词汇表大小为 50272。输入是长度为 2048 的连续标记序列。

30B 模型在 64 个 40GB 的 A100 GPU 上进行了微调。在微调过程中,模型处理了大约 20 亿个标记,仅占 OPT 预训练预算的 0.6%。

BibTeX 条目和引用信息

@misc{iyer2022opt,
      title={OPT-IML: Scaling Language Model Instruction Meta Learning through the Lens of Generalization}, 
      author={Iyer, Srinivasan and Lin, Xi Victoria and Pasunuru, Ramakanth and Mihaylov, Todor and Simig, D{\'a}niel and Yu, Ping and Shuster, Kurt and Wang, Tianlu and Liu, Qing and Koura, Punit Singh and others},
      year={2022},
      eprint={2212.12017},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}