英文

Google's T5 关于闭卷问答的模型。

该模型使用T5的去噪目标进行预训练,分别在 C4 上使用重要片段掩蔽目标进行额外的预训练,并最后在 Trivia QA (TQA) 上进行微调。

注意:该模型在 Trivia QA (TQA) 的训练拆分中使用100%进行10步的微调。

其他社区检查点: here

论文: How Much Knowledge Can You Pack Into the Parameters of a Language Model?

作者:Adam Roberts, Colin Raffel, Noam Shazeer

Trivia QA - 测试集上的结果

Id link Exact Match
T5-11b 1239321 60.5
T5-xxl 12310321 61.6

用法

以下是使用闭卷问答的模型的方法:

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

t5_qa_model = AutoModelForSeq2SeqLM.from_pretrained("google/t5-11b-ssm-tqa")
t5_tok = AutoTokenizer.from_pretrained("google/t5-11b-ssm-tqa")

input_ids = t5_tok("When was Franklin D. Roosevelt born?", return_tensors="pt").input_ids
gen_output = t5_qa_model.generate(input_ids)[0]

print(t5_tok.decode(gen_output, skip_special_tokens=True))

摘要

最近观察到,训练在非结构化文本上的神经语言模型可以使用自然语言查询隐式地存储和检索知识。在这篇简短的论文中,我们通过微调预训练模型来测量这种方法的实际效用,以便在没有任何外部上下文或知识的情况下回答问题。我们展示了这种方法与从外部知识源明确检索答案的开放领域系统在回答问题时的可比性和规模。为了促进可重复性和今后的工作,我们在 https://goo.gle/t5-cbqa 上发布了我们的代码和训练模型。