微软Phi-4:小型语言模型的巅峰再现

2025年03月03日 由 alex 发表 1788 0

本月发布了 Grok3、Claude 3.7 Sonnet 等多个版本后,科技巨头微软推出了 phi3.5 的续集,即 phi-4。根据基准测试,该模型看起来很棒,并且是目前最好的小型模型,同时还有一个多模式版本,即支持音频、视觉和文本的 Phi-4 多模式


Phi-4是什么?

Phi-4是由微软研究院开发的下一代语言模型。它采用了丰富的训练方法,结合了合成数据集和精心挑选的真实世界数据,专注于提供强大的推理、逻辑和理解能力。它的训练目标是为内存/计算资源受限的环境、低延迟应用和高级推理场景提供解决方案。


关键特性和架构

  • 模型架构:Phi-4是一个拥有140亿参数的密集仅解码器Transformer模型。其设计旨在处理大规模语言处理任务,同时在资源受限的环境中运行也足够高效。
  • 训练与硬件:Phi-4使用1920个H100–80G GPU,在21天的时间内训练完成,处理了9.8万亿个数据标记。该模型经过微调,以优先保证高质量输出和高级推理能力。
  • 上下文长度:Phi-4的突出特性之一是其16K标记的上下文长度,这使它能够比其他许多模型更有效地处理广泛的对话或长篇内容。
  • 训练数据:其数据来源于公开可用的文档、合成数据和学术书籍的混合。虽然主要包括英语数据,但也包含了8%的多语言数据。
  • 该模型完全开源。


性能基准


7


Phi-4已在多个基准测试中进行了评估,以衡量其在多个领域的能力:


MMLU(多任务语言理解):84.8(相比之下,Phi-3的得分为77.9)。
数学推理:在MATH和MGSM测试中表现出色,得分超过了许多其他领先模型。
代码生成:Phi-4在HumanEval中表现出令人印象深刻的熟练度,得分为82.6,属于行业顶尖水平。
事实知识:在SimpleQA上,它虽然落后于一些竞争对手,但仍然表现良好,得分为3.0。
推理和理解:DROP基准测试得分为75.5,证明了Phi-4在逻辑推理方面的扎实掌握。


安全性和伦理考量

Phi-4配备了强大的安全机制,利用了监督微调(SFT)和直接偏好优化(DPO)。该模型经历了多项安全测试,包括对抗性模拟和与微软AI红队(AIRT)的合作。这些措施确保模型能够最大限度地减少有害输出,如错误信息和偏见内容,尽管开发者被鼓励针对特定用例采取额外的安全措施。


挑战和局限性

尽管Phi-4能力出众,但并非没有挑战。其一些局限性包括:

  • 多语言支持:虽然它包含了一些多语言数据,但Phi-4并不适合非英语任务。
  • 表示和偏见:与任何基于公开可用数据训练的AI一样,在如何表示某些群体或想法方面可能存在偏见。
  • 可靠性:像Phi-4这样的语言模型有时可能会生成不准确或无意义的内容,尤其是在高风险领域。


在结束之前,


微软Phi-4多模态

微软Phi-4多模态大型语言模型(LLM)在基础Phi-4模型的成功基础上,增加了处理不仅限于文本,还包括多模态输入的新能力。这一扩展使Phi-4能够处理更广泛的数据类型,如图像和其他非文本形式的信息,同时保持其在自然语言处理方面的核心优势。以下是其多模态功能的简要概述。


Phi-4多模态LLM的关键功能

  1. 多模态输入处理:与仅操作文本输入的基础Phi-4不同,多模态变体扩展到包括图像和可能的其他数据类型。这使模型能够执行需要基于多种输入形式理解和生成响应的任务。
  2. 文本和图像的统一模型:Phi-4的多模态版本旨在解释和生成结合文本和视觉信息的内容。这开辟了新的用例,包括如下任务:


图像标题生成:为图像生成准确且上下文相关的标题。
视觉问题回答:基于图像内容回答问题。
跨模态推理:结合来自文本和图像的信息,形成连贯的响应或见解。


  1. 跨模态的上下文理解:该模型可以利用其16K标记的上下文长度来理解和生成基于视觉和文本上下文的响应。这种能力允许在涉及文本和图像之间复杂关系的任务中进行更深入的推理和更细致的输出。
  2. 训练方法:Phi-4的多模态能力建立在与原始模型相同的核心原则上,但使用额外的图像-文本对和多模态数据集进行训练。这种训练确保模型能够有效地对齐和整合来自两种模态的信息。
  3. 性能基准:由于多模态扩展是相对较新的进展,因此该版本的性能基准仍在涌现。然而,鉴于模型的核心能力和大型训练数据集,预计在需要文本理解和视觉处理的任务中,它将表现出色。


结论

微软的Phi-4和Phi-4多模态大型语言模型(LLM)代表了人工智能领域的重大进步,提供了强大的语言理解和多模态能力。Phi-4在数学、代码生成和科学等任务中表现出色,尤其在推理、逻辑和安全性方面。多模态版本则整合了文本和图像输入,使得响应更加贴合上下文。这两个模型均注重效率和责任,为各行业的人工智能驱动解决方案树立了新标准。

文章来源:https://medium.com/data-science-in-your-pocket/microsoft-phi-4-the-small-sized-llm-king-is-back-edf33023d814
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消