人人都在打造LLM。无论是封闭的还是开放的,市面上语言模型的数量远超过了基于这些模型开发的扩展和应用。有些规模较小,有些则规模较大,但只有少数公司能够从中开发出具有实际意义的东西。
无可辩驳的是,这也是一件重要的事。许多从开放语言模型中诞生的扩展只是增加了语言功能,或者在小范围内提升了速度。虽然这是一项崇高的任务,但它并没有真正影响这些模型的采用情况。
这些模型大小各异,从适中到巨大不等。然而,尽管它们数量众多,但只有少数公司能够有效地将它们转化为实际应用。
的确,LLM的激增代表了人工智能发展的一个重要里程碑。然而,模型产出的数量却远远超过了有意义扩展和实际应用的开发速度。虽然这些努力值得称赞,但它们并没有解决LLM广泛采用的核心问题。
浪费时间吗?
例如,在Hugging Face排行榜上,有成千上万的语言模型。每当新模型发布时,人们就会开始摆弄它,测试它的能力,并为自己的使用情况进行基准测试,然后再转向下一个。第二天,这个循环又会随着最新的模型重复。
Falcon是最大的开源语言模型之一,在发布时,它得到了许多开发者的测试和赞赏。但是,在测试了其能力之后,人们发现,即使是规模较小的Meta的Llama 2也表现得更好。同样的情况也发生在Mistral的新模型和OpenAI的GPT-2身上,尽管后者已经问世多年。
说到Falcon,它确实存在,但人们很少使用它。没有基于它构建出重要的应用。但是,作为这款语言模型背后的机构,TII可能会再开发另一个AI模型,并希望它能在排行榜上名列前茅。
毫无疑问,这就是竞争的方式。Databricks的新AI模型DBRX目前在市场上表现优于其他所有模型,而且价格更便宜。鉴于其能力,企业已经准备好采用它。当Meta发布Llama 3时,这种热潮无疑会再次出现。届时确实会有更多的选择,但人们也会忘记Llama 2。
如今,这种没有任何创新的基础语言模型泛滥的现象被称为“LLM污染”。LLM的过剩不仅未能促进创新或变革性应用的发展,反而有可能使该领域充斥着冗余或利用不足的模型。
接下来应该怎么做呢?
Databricks生成式AI副总裁Naveen Rao表示,绝大多数基础模型公司将失败。“你必须做得比他们(OpenAI)更好。如果你做不到,而且更换的成本足够低,那么你为什么要使用别人的模型呢?所以,除非你能打败他们,否则仅仅试图领先是没有意义的。”他补充道。
Rao还表示,每个人都有自己的看法,但很多人只是构建模型并称之为胜利。“哇!你构建了一个模型。真棒。”他打趣道。但他认为,如果没有差异化或问题解决能力,这是行不通的。
Rao说:“仅仅因为你说你能做到就构建一项技术,并不能真正证明你能解决问题。”
为下一个GPT投入数十亿美元可能会为OpenAI创造一个出色的模型,但用于构建GPT-4的数十亿美元可能会化为乌有。人们可能会使用它一段时间,但它很快就会成为下一个GPT-2。加速AI发展固然重要,但与此同时,衡量其对采用方面的积极和消极影响也势在必行。
目前迫切需要更加重视LLM在实际应用和现实世界问题解决方面的作用。除了专注于语言模型的技术实力,还应关注其实际效用和社会影响。
公司肯定不会都使用相同的LLM,我们确实需要更多的选择。但在用不同语言构建一堆模型之前,也有必要明确这些模型的确切用例。“LLM污染”的时代已经到来。将会有大量的LLM无人问津,它们曾经高居排行榜榜首,现在却只能默默无闻地堆积成山。