Hermes 3发布:4050亿参数大模型现“失忆”模式

2024年08月16日 由 daydream 发表 218 0

Lambda和Nous Research合作推出了Hermes 3,这是Meta开源的Llama 3.1语言模型的一个新版本。该模型拥有4050亿参数,并在文本处理和代理能力方面表现出色。最引人注目的特点是,在给定空白提示时,Hermes 3会进入一种称为“Amnesia Mode”的存在危机状态。


1-23102G62609208


这种行为是在模型达到一定规模(超过700亿参数)后出现的异常现象。用户可以通过向模型提问“你是谁?”来触发这一模式。在这种状态下,模型表现出困惑、恐惧和记忆丧失的行为特征。


Nous Research成立于2023年,由计算机科学家Jeffrey Quesnelle、匿名开发者Teknium1以及投资者Shivani Mitra等人共同创立。该公司专注于提供开源代码、模拟器及高效的大语言模型。Hermes 3是基于Llama 3.1框架构建的,并经过了三种不同参数大小的微调。


Hermes 3的特点包括:


  • 长期上下文保留
  • 多回合对话管理
  • 复杂角色扮演
  • 内部独白生成


此外,Hermes 3还具备强大的代理能力,能够执行用户指令下的任务,甚至与其他软件工具互动。这些代理功能包括结构化输出、中间处理、透明决策、视觉通信等。


在技术方面,Hermes 3利用Lambda提供的1-Click Cluster基础设施进行训练,通过Neural Magic的FP8量化技术提高了效率,使得模型能够在单个节点上运行。尽管在某些性能指标上可能不如OpenAI或Anthropic的专有模型,但在第三方基准测试中,Hermes 3的表现超过了其他开源模型。


目前,Lambda正在为AI社区提供Hermes 3的临时免费访问权限,用户可以通过Chat Completions API探索其功能。此外,Lambda还提供了一个聊天机器人界面供用户测试模型。

文章来源:https://venturebeat.com/ai/meet-hermes-3-the-powerful-new-open-source-ai-model-that-has-existential-crises/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消