在一月的微软研究论坛期间,微软研究实验室纽约分部和AI前沿的高级研究员Dipendra Misra解释了LASER如何使大型语言模型更加准确。
通过使用LASER,研究人员可以“介入”并用一个近似的更小矩阵替换一个权重矩阵。权重是模型建立的上下文连接。权重越大,模型对其依赖性越强。那么,用具有更多关联和上下文的东西来替换某些东西,会使模型变得不准确吗?根据他们的测试结果,答案出人意料的是否定的。
Misra说:“我们正在对LLM进行LASER干预,所以人们会期望随着我们进行更多的近似处理,模型损失应该上升,这意味着模型的表现会变差,对吧?因为我们正在从LLM中丢弃信息,而LLM是在大量数据上训练的。但令我们惊讶的是,我们发现如果执行了正确类型的LASER干预,模型损失不会上升,实际上会下降。”
Misra表示,他的团队成功地在三个不同的开源模型上使用了LASER:RoBERTa、Llama 2和Eleuther's GPT-J。他说,有时模型改进增加了20到30个百分点。例如,GPT-J在基于传记的性别预测方面的表现,经过LASER干预后,准确率从70.9%提高到了97.5%。
人工智能模型经常犯事实错误,因此大型语言模型的准确性仍然是一个问题。这不仅仅是关于产生幻觉的恐惧,幻觉更多的是关于错误地理解事物而不是编造事物。产生幻觉和不准确的人工智能模型可能会带来伤害。