一家名为Deep Cogito的新公司宣布推出其自主研发的混合AI推理模型系列,并开放供下载及API调用。该系列模型被称为Cogito 1,具备在推理模式与非推理模式间自由切换的能力。
Cogito 1系列模型融合了推理与非推理两种技术架构,旨在平衡计算效率与问题解决能力。推理模式借鉴了OpenAI o1等模型的分步验证机制,可逐步拆解复杂问题;非推理模式则侧重快速响应简单查询。这种混合设计使模型在处理不同难度任务时能够动态分配计算资源。
该系列模型参数规模覆盖30亿至700亿区间,未来还将推出参数规模达6710亿的更大版本。参数规模是衡量模型性能的关键指标,通常参数越多,问题解决能力越强。Cogito宣称其模型在同等规模下超越Meta及DeepSeek等主流开源模型。
技术实现方面,Cogito 1并非从零开发,而是基于Meta的Llama和阿里巴巴的Qwen模型进行二次开发。通过创新训练方法,研发团队实现了推理功能的模块化集成,使模型可按需切换工作模式。内部基准测试显示,启用推理功能的700亿参数模型在数学与语言评估中表现优于DeepSeek的R1推理模型;关闭推理功能时,其性能仍优于Meta最新发布的Llama 4 Scout通用AI测试模型。
目前,所有Cogito 1模型均已上线Fireworks AI和Together AI等云服务平台,支持直接下载或通过API调用。公司表示当前开发仅利用了传统大语言模型训练所需算力的一小部分,未来将探索通过后训练优化实现模型自我提升。
工商登记信息显示,Deep Cogito于2024年6月在旧金山注册成立,核心团队由两位前谷歌工程师组成:Dhruv Malhotra曾任职DeepMind生成式搜索技术团队,Drishan Arora曾任谷歌高级软件工程师。公司获得South Park Commons等机构投资,其长期目标是构建具备“通用超级智能”的AI系统,即超越多数人类能力并发现未知应用场景的AI技术。