自从OpenAI发布了ChatGPT以来,许多公司都试图创建自己的AI模型,但只有一些能够脱颖而出。Anthropic就是其中之一。
这家人工智能初创公司于3月份发布了他们自己的AI模型,名为Claude。它被证明是OpenAI的GPT-3.5和GPT-4的有力竞争对手。与此同时,Anthropic还发布了Claude Instant,根据Anthropic的说法,这是Claude的一个更轻、更便宜和更快的版本。现在,它正在升级。
周三,Anthropic发布了Claude Instant 1.2,这是模型的改进版本,它利用了Claude 7月份发布的最新版本Claude 2.0。
根据发布的消息,由于使用了Claude 2.0的先进功能,Claude Instant 1.2在数学、编码、推理和安全性方面有了显著改进,并且生成了更长、更有条理的回答。
为了测试这个模型,Anthropic将Claude Instant 1.1和1.2在标准基准评估中进行了对比,包括Codex评估和Grade-school math problem benchmark (GSM8k),这些评估对于数学和编码能力是很好的基准。
在这两个情况下,1.2版本在Codex评估中的得分是58.7%,而原始版本是52.8%;在GSM8k测试中的得分是86.7%,而原始版本是80.9%。
在其他基准考试中,新版本的模型表现要么略低于旧版本,要么略高于旧版本,差异很小。
回答输出的质量也得到了改善,幻觉减少,对越狱企图的抵抗力增强。一项red-teaming评估发现,Claude 1.2是使用最安全的模型。