总部位于芬兰赫尔辛基的AI初创公司Silo AI本周发布了名为Poro的新型开源大型语言模型(LLM),旨在推动欧洲语言的多语言AI能力发展。
Poro是计划中的一系列开源模型中的第一个,计划最终覆盖欧盟的全部24种官方语言。这些模型由Silo AI于2022年底成立的生成AI部门SiloGen以及芬兰图尔库大学的TurkuNLP研究小组共同开发。
Silo AI首席执行官Peter Sarlin在接受采访时表示:“这是一个数字主权的问题,希望确保有模型可以捕捉基础价值、文化和语言。”他补充说:“最终,这是关于价值创造的问题,确保不仅欧洲,而且任何公司都能够创造价值,能够创造留在欧洲和该组织内部的专有模型的价值。”
Poro 34B模型拥有342亿个参数,以芬兰语中“驯鹿”的意思命名。它采用了BLOOM转换器架构和ALiBi嵌入。该模型是在21万亿个标记的多语言数据集上进行划分训练的,涵盖了英语、芬兰语以及Python和Java等编程语言。
Poro正在芬兰卡亚尼的LUMI上进行训练,LUMI是欧洲最快的超级计算机,提供了512个AMD Instinct MI250X GPUs,拥有74拍字节的计算能力。
据Sarlin介绍,Poro的设计目标是解决为像芬兰语这样资源较少的欧洲语言训练有效的自然语言模型的核心挑战。通过利用跨语言训练方法,该模型可以利用来自资源较丰富的语言(如英语)的数据。
该模型是继法国创业公司Mistral AI在2023年年底推出Mistral 7B之后,欧洲发布的第二个重要的开源LLM,展示了欧洲在快速发展的生成AI领域取得的成就,也凸显出不同AI实验室和公司之间的日益激烈的竞争。
Poro研究检查点
作为SiloGen对透明度承诺的一部分,Poro的训练过程将通过Poro研究检查点计划进行记录。
Sarlin解释道:“我们将在模型训练过程中发布检查点,这是一项相当新颖的举措。”他还表示:“以前并没有这样详细公开模型训练的倡议。”
Poro 34B的初始检查点覆盖了30%的训练进度。根据Silo AI发布的基准测试,即使在完成了其广泛的训练计划的30%之后,Poro仍然取得了最先进的结果。
在广泛应用的芬兰语FIN-bench评估中,Poro的性能超过了专门针对该任务设计的现有单语芬兰语AI模型(如FinGPT)。
Sarlin指出:“即使在训练30%后,该模型在低资源语言方面的性能也超过了以前的尝试。”通过利用相关语言之间的共享模式,Poro在训练数据较少的语言方面具备了优势。
值得注意的是,Poro的多语言能力并没有损害其在英语方面的表现。对标准化的英语评估集进行测试显示,该模型在芬兰语基准方面“在训练30%后已经超过了现有模型,并且在英语性能方面与其相当或即将相当。”。
对于大科技公司来说,开源模型是一个替代方案
Sarlin认为,像Poro这样的开源模型代表了AI的未来,提供了对比大型科技公司封闭模型的透明和道德的选择。
他表示:“我个人认为,最终会有很多开源替代方案。”他还说:“最安全的方法是实际上选择开源方式,全面了解这些模型是如何构建和架构的。”
他补充道:“我们在确保数据和模型方面都非常努力,以使其符合法规要求。”
Silo AI计划在整个训练过程中继续定期发布Poro检查点。最终目标是创建一个覆盖所有欧洲语言的完整开源模型系列。如果有初步结果,Poro可能很快就能与大型科技公司一较高下。
与图尔库大学合作
Poro代表了Silo AI与芬兰图尔库大学之间持续合作的一部分。该大学图尔库NLP小组的研究人员一直在开发芬兰语的开源资源和模型方面取得先驱成就。
Sarlin说:“我的研究小组加入了,一些教授也加入了,我们基本上通过收入支持和自助成长。与其他公司相比,我们与众不同。”他补充说:“我们有300多人,大多数人拥有与AI相关领域的博士学位。”
这种合作将Silo AI的应用AI专业知识和计算资源与该大学在多语言语言建模研究领域的领导地位结合起来。萨林表示,这代表了行业和学术界如何共同合作推动AI能力发展的模式,特别是对于资源较少的欧洲语言。
欧洲是否会成为开源AI的未来领导者?
Poro的发布表明,自然语言处理领域进入了一种开放协作和透明度的新时代。Poro研究检查点等倡议向整个社区提供了对过去只有大型科技公司才能获得的工具和见解的访问权限。
Sarlin表示:“我们与安联、劳斯莱斯、本田和飞利浦等众多大品牌合作。”他还表示:“我们一直听到已经有一段时间,这些大型企业对于最终的监管规定非常担忧,以及他们可以使用哪些模型。”
如果Poro能够兑现其承诺,它将为获取高性能的多语言模型实现民主化,为欧洲提供了一个本土替代方案,摆脱了来自美国科技公司的系统。虽然还处于早期阶段,但Poro代表着将语言AI从专有领域引入开源领域的重要里程碑。