Ai2发布Tülu 3模型，缩小开源与闭源差距

2024年11月25日由 daydream 发表 343 0

艾伦人工智能研究所（Ai2）近日发布了其新型模型训练系列Tülu 3，旨在缩小闭源与开源模型在训练后应用方面的差距，并强调开源模型在企业领域的应用前景广阔。

微信截图_20241125111333

Tülu 3模型在性能上已达到OpenAI的GPT系列、Anthropic的Claude以及Google的Gemini等闭源模型的水平。它允许研究人员、开发人员和企业对开源模型进行微调，同时保留模型的核心数据和技能，使其性能接近闭源模型。

Ai2在发布Tülu 3时，提供了全部的数据集、数据混合方法、训练配方、代码、基础设施和评估框架。为提升Tülu 3的性能，Ai2创建了新的数据集和训练方法，包括“基于强化学习解决可验证问题”的训练方式。

据Ai2介绍，其最佳模型是通过复杂的训练过程得出的，该过程结合了专有方法的部分细节、新颖技术和已建立的学术研究。Ai2的成功源于对数据的精心筛选、严格的实验、创新的方法和改进的训练基础设施。

Tülu 3模型将以多种规模提供，以满足不同企业和研究人员的需求。

在开源模型与企业应用方面，尽管开源模型在企业中的采用率曾落后于闭源模型，但越来越多的公司选择开源大型语言模型（LLM）进行项目开发。Ai2认为，通过改进如Tülu 3等开源模型的微调能力，将吸引更多企业和研究人员选择开源模型，因为他们相信这些模型能够表现出与Claude或Gemini等闭源模型相当的性能。

Ai2指出，尽管Anthropic和Meta等大型模型训练机构声称自己是开源的，但他们的训练数据和训练方法对用户并不透明。尽管开放源代码倡议（OSI）最近发布了开源AI的首个定义版本，但一些组织和模型提供商在许可证中并未完全遵循该定义。

企业在选择模型时，虽然重视透明度，但更多时候是选择最适合其用例的模型，而不仅仅是出于研究或数据开放性的考虑。Tülu 3为企业提供了更多选择，使它们能够在开源模型中进行选择并对其进行微调。

此外，Ai2还发布了其他开源模型，如OLMoE和Molmo，据称这些模型在某些方面已超越了GPT-4o和Claude等领先模型。

Tülu 3模型还允许企业在微调过程中混合和匹配数据集。Ai2提供的训练配方有助于企业平衡数据集，从而根据需要构建具有特定功能的模型，如编码能力、精确遵循指令以及多语言交流能力。

同时，Ai2发布的基础设施代码允许企业在调整模型规模时构建相应的管道。此外，Ai2的评估框架还为开发人员提供了指定模型输出设置的方法。

文章来源：https://venturebeat.com/ai/ai2-closes-the-gap-between-closed-source-and-open-source-post-training/

标签：

Ai2 模型

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 OpenAI发布红队测试AI安全风险新法

下一篇微软发布10款企业级AI代理，领先行业应用

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来