德国新兴科技公司Aleph Alpha近期推出了两款开源语言模型——Pharia-1-LLM-7B-control与Pharia-1-LLM-7B-control-aligned,它们声称在人工智能监管成为全球热点之际,已经严格遵循了欧盟的法规要求。这一举动正值科技巨头们因监管不确定性而陷入困境之时,凸显了在AI技术飞速发展中,创新与监管之间微妙而复杂的平衡关系。
Aleph Alpha宣布,Pharia-1-LLM系列模型现面向非商业研究及教育领域开放使用。公司强调,这些模型不仅符合《通用数据保护条例》(GDPR)的标准,还致力于满足即将生效的欧盟人工智能法案的各项要求。
Aleph Alpha方面表示:“我们充分认识到并严格遵守所有适用的国内外法律法规,”并承诺“将持续关注法规动态,及时调整产品策略及模型规范。”这种积极应对监管的态度,与近期多家科技巨头因监管不明朗而推迟欧盟新AI产品上线的做法形成了鲜明对比。
例如,Meta、苹果、微软等科技巨头近期纷纷表示,鉴于监管环境的不确定性,它们将暂停在欧盟市场推出新的AI产品。Meta首席执行官马克·扎克伯格与Spotify的CEO丹尼尔·埃克更是在《经济学人》上联合发声,批评欧盟的AI监管政策过于复杂且不一致,可能会扼杀创新,尤其是对开源模型的发展构成障碍。扎克伯格透露,正是出于这些考虑,Meta决定不在欧洲推出其备受瞩目的Llama多模态AI模型。
与此同时,美国国内关于州级AI监管的讨论也颇为热烈。加利福尼亚州的人工智能安全法案SB 1047就引发了业界的广泛争议,OpenAI与Anthropic等公司在立场上截然相反。OpenAI担忧该法案可能阻碍创新,甚至迫使AI企业离开加州;而Anthropic则在法案修订后表示谨慎支持。值得注意的是,特斯拉CEO埃隆·马斯克本周公开表态支持该法案。
在此背景下,Aleph Alpha的合规先行策略尤为引人注目。公司宣称,Pharia模型在训练过程中已全面满足GDPR及欧盟AI法案的预期要求。然而,与众多AI开发者一样,Aleph Alpha也依赖于网络抓取的数据,包括来自Common Crawl等平台的近8万亿个标记。公司表示,已对这些数据进行了严格筛选,剔除了来自458万个网站的信息,并应用了先进的去重技术以确保合规。此外,公司还通过整合教科书、法律文本及科学研究中的结构化数据来丰富训练集。
不过,由于外部审计的缺失及训练数据的不可查性,Aleph Alpha的合规性声明很大程度上依赖于内部自我监管。这不禁让人质疑:在欧盟新监管框架下,如何有效验证这些声明?监管机构在无法直接访问训练数据的情况下,又将如何开展执法工作?这与美国当前的自愿性自我管理相比,又有何异同?
值得一提的是,Aleph Alpha的模型支持多种欧洲语言,并对德语、法语及西班牙语进行了特别优化。这一特点在强调语言多样性的欧盟市场中显得尤为重要,因为欧盟法规往往要求提供广泛的语言支持。
在性能评估方面,Pharia模型虽然在处理不安全提示等关键领域上表现略逊于Llama等竞争对手,但Aleph Alpha仍选择公开分享这些评估结果。这一举动在业界中实属难得,展现了公司在透明度建设上的决心与努力。
Aleph Alpha在推动AI技术创新的同时,积极应对监管挑战的案例,为其他AI企业提供了宝贵的参考——无论是作为正面榜样还是警示案例。未来,这些模型在现实世界中的实际应用表现及其能否经受住监管的严格考验,将成为衡量其成功与否的关键标准。