尽管苹果公司在进入人工智能领域之初有所延迟,但在苹果全球开发者大会之后,该公司已全力投入人工智能领域。苹果智能(Apple Intelligence)将为苹果几乎所有的产品提供人工智能解决方案,并且公司并未止步于此。相反,苹果现在正在进一步进军人工智能语言模型领域。
上周四,苹果在Hugging Face上发布了DCLM-Baseline-7B,这是一个拥有70亿参数的语言模型。该模型是DataComp for Language Models(DCLM)基准测试的一部分,该计划旨在提高语言模型训练数据集的质量。
这款拥有70亿参数的模型与诸如Llama 2、Gemma等热门模型相当。在针对同等规模热门模型的Massive Multitask Language Understanding(MMLU)基准测试中,DCLM-Baseline-7B表现不俗,甚至超过了Mistral 7B,如下图所示。
尽管DCLM-Baseline-7B的表现令人印象深刻,但它最大的亮点之一是模型真正实现了开源,拥有“开放的数据、开放的权重模型、开放的训练代码”,苹果公司的研究科学家Vaishaal Shankar强调说。
“我们已经在Hugging Face上发布了我们的DCLM模型!据我们所知,这些是目前表现最好的真正开源模型(开放的数据、开放的权重模型、开放的训练代码)。”
——Vaishaal Shankar(@Vaishaal)2024年7月18日
许多人赞扬了苹果的这种做法,因为它允许其他研究人员和开发人员在这些模型的基础上进行构建,并进一步推动该领域的发展。该模型是在DCLM-BASELINE数据的基础上,结合StarCoder和ProofPile2数据进行训练的,以达到在编码和数学等其他任务上的熟练程度。
除了发布DCLM-Baseline-7B、模型权重、训练代码和数据集外,苹果还在该软件包中包括了一个拥有14亿参数的强大版本。
这并非苹果首次涉足AI模型领域,之前还发布了其他模型,如Ferret-UI,一个多模态大型语言模型(MLLM),以及Reference Resolution As Language Modeling(ReALM),一个对话式AI系统。今年秋季,当iOS 18和苹果智能(Apple Intelligence)上线后,我们将能看到苹果在AI领域的竞争,并更好地评估其AI努力的潜在成功。