大型语言模型(LLM)之所以强大无比,关键在于其广泛的适用性。一个模型既能辅助研究生撰写专业电子邮件,又能为临床医生提供癌症诊断的辅助意见,这种跨领域的能力令人瞩目。然而,这也为系统性评估这些模型带来了前所未有的挑战。毕竟,要想构建一个能够涵盖LLMs所有潜在应用问题的基准数据集,几乎是不可能完成的任务。
面对这一难题,麻省理工学院的研究团队另辟蹊径。他们认识到,是人类的决策决定了LLM的应用场景,因此,对模型的评估必须深入理解人们如何构建对模型能力的信任。换句话说,研究生需要评估模型是否适用于特定的邮件撰写任务,而临床医生则需判断哪些病例适合咨询模型意见。
基于这一洞见,研究人员创新性地构建了一个评估框架,其核心在于衡量LLM与人类对其在特定任务上能力认知的一致性。他们引入了“人类泛化函数”这一概念,旨在模拟人们在与LLM互动后,如何更新对模型能力的信念。随后,通过评估LLM与这一函数的一致性,揭示了模型在现实应用中的潜在风险。
研究发现,当LLMs与人类泛化函数不一致时,用户可能会对其能力产生过度自信或缺乏信心的误判,进而导致模型在实际应用中的意外失效。特别是在高风险场景下,功能更为强大的模型反而可能因为这种不一致性而表现逊于小型模型。
“这些工具之所以令人振奋,是因为它们具有普适性。但正因为它们的通用性,与人类的合作变得至关重要,我们必须充分考虑人的因素。”该研究的共同作者、麻省理工学院经济学助理教授及信息与决策系统实验室(LIDS)首席研究员Ashesh Rambachan强调道。
在深入探讨“人类泛化”的概念时,Rambachan进一步解释:“在人际交往中,我们会根据对方的言行来推断其能力。类似地,人们在面对语言模型时,也会运用这种泛化思维。但关键在于,语言模型的表现并不总是符合人类的预期模式。”
为了验证这一理论,研究团队设计了一系列实验,收集了近19,000个样本数据,展示了人们在79种不同任务中对LLMs性能的泛化情况。结果显示,相较于对人类能力的判断,人们在评估LLMs性能时表现出较大的偏差,尤其是在LLMs出现错误回答时,人们的信念更新更为显著。
Rambachan指出:“更高级的语言模型有时能够误导人们认为它们在相关问题上也能表现出色,而事实却并非如此。”此外,他还提出了一个可能的解释:由于LLMs的新颖性,人们与它们的互动经验相对较少,导致在泛化其能力时容易出现偏差。
展望未来,研究团队计划进一步探索人们在与LLMs互动过程中信念的变化规律,并尝试将人类泛化能力纳入模型的开发与评估中。“在训练这些算法或利用人类反馈进行更新时,我们需要将人类泛化功能纳入性能衡量的考量之中。”Rambachan表示。
同时,他们希望所构建的数据集能够成为评估LLMs与人类泛化功能相关表现的基准,从而推动在现实场景中部署的模型性能的持续改进。