微软公司近日公开了Phi-4的代码,这是一款能够生成文本并解答数学问题的小型语言模型。
上个月,微软首次详细介绍了Phi-4模型。起初,该模型仅能通过微软的Azure Foundry人工智能开发服务进行访问。现在,它已在Hugging Face网站上开放下载,Hugging Face是一个广受欢迎的开源AI项目托管平台。
Phi-4是微软于2023年推出的小型语言模型系列的第四版,拥有140亿个参数,这些参数决定了神经网络如何处理数据。微软研究人员使用由英伟达公司提供的1920个H100图形处理单元组成的集群,对Phi-4进行了为期21天的训练。
该模型基于行业标准的Transformer架构,这是大多数大型语言模型的基础。Transformer模型在用户输入提示后,会将输入文本拆分为单个单词,并通过分析周围文本来确定每个单词的含义。同时,它们会优先关注与单词最相关的周围文本部分。
Phi-4采用了Transformer架构中的仅解码器变体。标准Transformer模型会分析单词前后的文本以确定其含义,而仅解码器模型则仅关注单词之前的文本,这减少了需要处理的数据量,从而降低了推理成本。
在一份研究论文中,微软详细描述了其通过两种后训练优化技术来提高Phi-4输出质量的方法:直接偏好优化和监督微调。这两种方法都涉及向语言模型提供示例,以说明其应如何生成即时响应。
在内部评估中,微软将Phi-4与拥有五倍参数量的LLama 3.3 70B模型进行了比较。结果显示,Phi-4在流行的GPQA和MATH基准测试中表现更佳,这两个测试数据集分别包含科学问题和数学问题。
Phi-4加入了过去一年中由主要科技公司开源的小型语言模型名单。
去年2月,谷歌推出了名为Gemma的小型语言模型系列,该系列算法的参数量在20亿至270亿之间。谷歌表示,其中参数量为270亿的版本性能超过了规模超过其两倍的模型。
近期,Meta Platforms发布了两个参数量不到50亿的LLama 3.2模型,并随后开源了这些模型的更高效版本,这些版本采用了名为量化的机器学习技术。该技术通过压缩神经网络处理的数据来减少处理所需的硬件量。