AI初创公司Cohere发布多模态开源模型Aya Vision

2025年03月05日 由 daydream 发表 4737 0

AI初创公司Cohere旗下的非营利性研究实验室发布了一款名为Aya Vision的多模态“开源”AI模型。据该实验室称,Aya Vision在其领域内表现卓越。


微信截图_20250305100302


Aya Vision具备多种功能,包括为图像添加文字说明、回答关于照片的问题、进行文本翻译以及用23种主要语言生成摘要。Cohere还通过WhatsApp平台免费提供Aya Vision,称其为“向全球研究人员普及技术突破的重要一步”。


Cohere在博客文章中提到:“尽管AI取得了显著进步,但在不同语言上模型的表现仍存在较大差距,这在涉及文本和图像的多模态任务中尤为明显。Aya Vision旨在明确帮助缩小这一差距。”


Aya Vision分为两个版本:Aya Vision 32B和Aya Vision 8B。Cohere表示,更高级的Aya Vision 32B在某些视觉理解基准测试中超越了其两倍大小的模型,包括Meta的Llama-3.2 90B Vision。同时,Aya Vision 8B在某些评估中的表现也优于其十倍大小的模型。


这两款模型均在AI开发平台Hugging Face上以Creative Commons 4.0许可证及Cohere的附加使用条款提供,但禁止用于商业应用。


Cohere透露,Aya Vision的训练采用了“多样化”的英文数据集,实验室将这些数据集进行翻译,并用于创建合成标注。标注,也称为标签,有助于模型在训练过程中理解和解释数据。例如,为训练图像识别模型而进行的标注可能包括围绕对象的标记或描述图像中每个人物、地点或对象的文字说明。


Cohere使用合成标注(即由AI生成的标注)的做法符合当前趋势。尽管存在潜在弊端,但随着真实世界数据的枯竭,包括OpenAI在内的竞争对手越来越多地利用合成数据来训练模型。研究公司Gartner估计,去年用于AI和分析项目的数据中,有60%是合成创建的。


Cohere表示,通过对合成标注进行训练,Aya Vision能够在使用较少资源的同时实现具有竞争力的性能。


此外,Cohere还发布了新的基准测试套件AyaVisionBench,旨在测试模型在“视觉语言”任务中的技能,如识别两张图像之间的差异以及将截图转换为代码。


AI行业正面临所谓的“评估危机”,这是由于流行的基准测试提供的总体分数与AI用户最关心的任务熟练度相关性较差所导致的。Cohere认为,AyaVisionBench是朝着解决这一问题迈出的一步,它提供了一个“广泛且具有挑战性”的框架,用于评估模型的跨语言和多模态理解能力。


“该数据集为在多语言和真实环境中评估视觉语言模型提供了稳健的基准。”Cohere研究人员在Hugging Face上的文章中写道,“我们向研究界提供此评估集,以推动多语言多模态评估的发展。”


文章来源:https://techcrunch.com/2025/03/04/cohere-claims-its-new-aya-vision-ai-model-is-best-in-class/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消