模型:
facebook/opt-iml-1.3b
OPT-IML (OPT + Instruction Meta-Learning) 是对 OPT 的一组经过指令调整的版本,应用于 OPT-IML Bench 这个由 8 个自然语言处理基准组成的约 2000 个 NLP 任务集合。
我们提供两个模型版本:
您可以直接使用此模型进行文本生成流程。
>>> from transformers import pipeline >>> generator = pipeline('text-generation', model="facebook/opt-iml-1.3b") >>> generator("What is the capital of USA?")
虽然 OPT-IML 模型在广泛的评估中优于基准 OPT,但仍会受到使用大型语言模型的各种风险的影响,包括事实正确性、生成有害语言和引发刻板印象。尽管我们发布 OPT-IML 模型以促进指令调整的未来工作,并改善大型指令调整因果语言模型的可用性,但使用这些模型应遵循负责任的最佳实践。
OPT-IML 模型是在 OPT-IML Bench 上进行训练的,这是一个包含来自 8 个现有基准(包括 Super-NaturalInstructions、FLAN、PromptSource 等)的约 2000 个 NLP 任务的大型基准集。
使用 GPT2 的字节级 Byte Pair Encoding (BPE)(用于 Unicode 字符)对文本进行标记化,词汇量为 50272。输入为长度为 2048 的连续标记序列。
30B 模型在 64 个 40GB A100 GPU 上进行了微调。在微调期间,模型大约看到了 20亿个标记,仅占 OPT 预训练预算的 0.6%。
@misc{iyer2022opt, title={OPT-IML: Scaling Language Model Instruction Meta Learning through the Lens of Generalization}, author={Iyer, Srinivasan and Lin, Xi Victoria and Pasunuru, Ramakanth and Mihaylov, Todor and Simig, D{\'a}niel and Yu, Ping and Shuster, Kurt and Wang, Tianlu and Liu, Qing and Koura, Punit Singh and others}, year={2022}, eprint={2212.12017}, archivePrefix={arXiv}, primaryClass={cs.CL} }