H2O AI发布适用于移动设备的超小型LLM

2024年03月04日 由 daydream 发表 388 0

致力于通过一系列开源和专有工具普及人工智能(AI)的公司H2O AI宣布推出Danube,这是一款全新的适用于移动设备的超小型大型语言模型(LLM)。


微信截图_20240304113159


这款开源模型以欧洲第二大河流命名,拥有18亿个参数,据称能在一系列自然语言任务中与类似规模的模型一较高下,甚至更胜一筹。这使得它与微软、Stability AI和Eleuther AI等强大产品站在了同一起跑线上。


这一宣布恰逢其时。目前,正在构建消费设备的企业正在争相探索离线生成式AI的潜力,这种模型可以在产品上本地运行,为用户提供跨功能的快速协助,同时消除了将信息传输到云端的需求。


“我们很高兴能在像您的智能手机这样的小型设备上发布H2O-Danube-1.8B便携式LLM……更小、成本更低的硬件的普及以及更高效的训练,现在使得中等规模的模型能够面向更广泛的受众……我们相信H2O-Danube-1.8B将成为移动离线应用领域的颠覆者,”H2O的CEO兼联合创始人Sri Ambati在一份声明中表示。


对于Danube-1.8B LLM,人们有何期待呢?


尽管Danube刚刚宣布推出,但H2O声称它可以通过微调来处理小型设备上的各种自然语言应用,包括常识推理、阅读理解、摘要和翻译等。


为了训练这个小型模型,该公司从各种网络来源收集了万亿个令牌,并利用从Llama 2和Mistral模型中提炼出来的技术来增强其生成能力。


“我们调整了Llama 2的架构,使其总参数约为18亿。我们(然后)使用原始Llama 2的分词器,词汇量大小为32000,并将我们的模型训练到上下文长度为16384。我们采用了来自Mistral的滑动窗口注意力,大小为4096,”该公司在Hugging Face上描述模型架构时指出。


在基准测试中,该模型的性能与1-2B参数类别中的大多数模型相当,甚至更好。


例如,在旨在评估常识自然语言推理的Hellaswag测试中,其准确率为69.58%,仅次于Stability AI的Stable LM 2 16亿参数模型,该模型在2万亿个令牌上进行了预训练。同样,在Arc高级问答基准测试中,它以39.42%的准确率排名第三,仅次于微软的Phi 1.5(13亿参数模型)和Stable LM 2。


为了推动模型的采纳,H2O已经发布了相关工具。


为了简化模型的应用过程,H2O已在Apache 2.0许可下发布Danube-1.8B,供商业使用。任何希望将模型用于移动用例的团队都可以从Hugging Face下载并进行针对应用程序的微调。


为了简化这一过程,该公司还计划很快发布其他工具。它还发布了一个聊天调优版本的模型(H2O-Danube-1.8B-Chat),可用于聊天应用程序。


从长远来看,Danube和类似的小型模型的推出预计将在手机和笔记本电脑上推动离线生成式AI应用的激增,帮助完成诸如电子邮件摘要、打字和图像编辑等任务。事实上,三星已经朝着这个方向迈出了步伐,推出了其S24系列智能手机。

文章来源:https://venturebeat.com/ai/h2o-ai-releases-danube-a-super-tiny-llm-for-mobile-applications/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消