Patronus AI发布小型AI模型Glider,用于评估大型语言模型准确性

2024年12月20日 由 daydream 发表 137 0

Patronus AI公司,一家专注于为企业提供工具以检测和修复大型语言人工智能模型可靠性问题的初创企业,近日推出了一款名为Glider的小型但功能强大的AI模型。该模型旨在评估更大规模语言模型的准确性。


微信截图_20241220112112


Glider是一款拥有38亿参数的开源大型语言模型(LLM),设计目标是成为AI语言模型的快速、灵活评估工具。据Patronus AI称,Glider是迄今为止最小的、在性能上超越常用评估工具如OpenAI GPT-4o-mini的模型。


大型语言模型的评估涉及通过衡量准确性、连贯性和相关性等标准,来评估模型在文本生成、理解和问答等特定任务上的表现。这一过程有助于AI开发人员和工程师在模型发布前,理解并分析其在给定情境下的行为表现,识别其优势和不足。


Patronus AI指出,以往业界普遍认为,只有参数规模达到300亿以上的大型模型才能提供可靠且可解释的评估结果。然而,Glider的推出挑战了这一观念,证明了小型模型同样可以取得相似效果,为AI领域树立了新的基准。


Glider的推出还解决了使用专有大型语言模型(如GPT-4)进行预训练模型评估时存在的问题,如高昂成本和缺乏透明度。Glider作为一个小型、可解释的“模型评估者”解决方案,能够在实时评估过程中提供评估分数,并展示其推理过程,从而提高了透明度。


此外,Glider的小型化设计使其能够在本地或设备上运行,无需将敏感数据发送给第三方。在当前企业日益关注云托管模型潜在隐私问题的背景下,这一特性尤为重要。


在评估过程中,Glider不仅提供基准分数,还给出高质量的推理链。它通过易于理解的要点列表解释评估过程,使每个分数都附带原因说明,帮助开发人员理解模型关注点的上下文和全面情况。


Patronus AI表示,Glider经过183项真实世界评估标准和685个领域的训练,能够处理需要事实准确性和主观人类般指标的评估任务,包括流畅性和连贯性等,使其在创意和商业应用中具有多功能性。


Glider的评估系统不仅评估模型输出,还评估用户输入、上下文、元数据等。这使得Glider能够作为LLM的防护系统,评估并捕捉不良行为,或提供实时主观文本分析。


通过提供支持本地部署的开源模型,Patronus AI表示,Glider可用于多种评估场景,包括作为LLM的防护系统和实时主观文本分析工具。

文章来源:https://siliconangle.com/2024/12/19/patronus-ai-releases-glider-small-high-performance-ai-evaluator-model-models/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消