世界上最受欢迎的生成式人工智能在冬天来临之际变得“懒惰”——这是一些敏锐的ChatGPT用户提出的说法。
根据11月下旬ArsTechnica的一份近期报道,ChatGPT的用户开始注意到一些古怪的现象,ChatGPT是一款由OpenAI的自然语言模型GPT-4驱动的AI聊天机器人。在回应某些请求时,GPT-4拒绝完成任务或提供简化的“懒惰”回答,而不是详细的回答。
OpenAI承认了这个问题,但声称他们没有更新模型。现在有人推测,这种懒惰可能是GPT-4模仿季节性人类行为变化的一个意外结果。
这个理论被称为“寒假假说”,这个理论认为,因为GPT-4被输入了当前日期,它从其庞大的训练数据中学到,人们倾向于在十二月结束大型项目并放慢速度。研究者们正在紧急调查这个看似荒谬的想法是否有根据。这个想法被严肃对待,凸显了像GPT-4这样的大型语言模型(LLM)不可预测。
11月24日,一个Reddit用户报告请求GPT-4填充一个大型CSV文件,但它只提供了一个条目作为模板。12月1日,OpenAI的Will Depue确认了意识到与“过度拒绝”相关的“懒惰问题”,并承诺解决这些问题。
有些人认为GPT-4总是偶尔“懒惰”,近期的观察只是证实了这种现象而已。然而,用户在11月11日GPT-4 Turbo更新后注意到更多拒绝的时机颇为有趣,尽管这可能是巧合,一些人认为这是OpenAI节省计算资源的新方法。
关于“寒假假说”理论的娱乐性讨论
12月9日,开发者Rob Lynch发现,在给定一个十二月日期的提示时,GPT-4生成了4086个字符,而对于五月的日期提示则生成了4298个字符。尽管人工智能研究人员Ian Arawjo无法在统计上显著再现Lynch的结果,但LLM采样偏差的主观性质使再现性变得非常困难。当研究人员争相调查时,这个理论继续引起AI社区的兴趣。
Anthropic的创造者,Claude的Geoffrey Litt称它为“有史以来最有趣的理论”,但他也承认,鉴于LLM对于类人提示和鼓励的诡异反应,这是一个难以排除的挑战。例如,研究表明,当告诉GPT模型“深呼吸”时,它们的数学成绩会提高,而承诺“给小费”会延长完成时间。GPT-4的潜在变化缺乏透明度,这使得即使是不太可能的理论也值得探索。
这件事体现了大型语言模型的不可预测性,以及理解其不断涌现的能力和局限性所需的新方法。这也提醒我们,当今的LLM仍然需要广泛的监督和测试,才能负责任地在现实世界的应用中部署。
关于GPT-4表面上的季节性懒惰背后的“寒假假说”可能被证明是错误的,或者未来会出现关于这一问题的新见解。无论如何,这个奇怪的案例体现了AI系统奇特的类人特质,以及在追求快速创新的同时理解风险的优先性。