随着生成式AI模型的不断演进,行业合作和定制化的测试基准对于组织努力确立适合其业务的模型非常关键。
根据新加坡信息通信媒体管理局(IMDA)商业与技术集团助理首席执行官Ong Chen Hui的说法,在企业寻求以特定于其行业的数据训练的大型语言模型(LLM)以及各国确保AI模型基于其独特价值观的数据和原则方面,行业合作和定制化的测试基准将是必不可少的。
她质疑是否一个大型基础模型真的是未来发展的方向,还是需要更多专业化的模型,指出了彭博社构建其自己的大规模生成型AI模型BloombergGPT的努力,该模型是专门针对金融数据进行训练的。
Ong Chen Hui表示,只要必要的专业知识、数据和计算资源“不被封锁”,行业就可以继续推动发展。她在本周的红帽峰会上向媒体发表讲话。
这家软件供应商是新加坡AI验证基金会的成员之一,该基金会旨在利用开源社区开发测试工具包,引导AI的负责和道德使用。该倡议于今年6月由红帽公司和其他六家优秀成员共同发起,包括谷歌和微软,由IMDA领导,目前已经有60多个普通成员。
据红帽新加坡总经理Guna Chellappan介绍,新加坡在亚太地区的开源技术和原则采用方面的采用率最高。Chellappan援引该供应商委托的研究结果称,72%的新加坡组织表示在采用开源软件方面取得了“很高或非常高的进展”。
红帽的本地客户包括港口操作商PSA Singapore和大华银行(UOB),前者使用开源应用程序自动化其运营,后者使用红帽OpenShift支持其云开发。
选择开源路线是关键,因为透明度对于推动AI伦理非常重要,Ong Chen Hui表示,如果关于测试工具包的细节不能自由获取,那么要求公众信任基金会的测试工具包就会有讽刺之处。
她还借鉴了其他领域的经验,特别是网络安全领域,工具通常是在开源环境中开发的,社区不断贡献更新以改进这些应用程序。
她说:“我们希望AI Verify也是如此”,并补充说,如果基金会在孤立的环境中开发测试工具包,就无法跟上行业的快速发展。
她注意到,这种开放合作也将有助于推动最佳和最有效的解决方案。汽车业经历了类似的循环,安全带经过设计、测试和重新设计,确定哪种最能保护驾驶员。
王清辉指出,生成式AI也需要采用同样的方法,不断测试和调整模型和应用程序,以确保它们可以安全地在组织的保护措施内部部署。
然而,OpenAI等主要参与者决定不公开其LLM背后的技术细节,这引起了行业的一些担忧。
牛津大学Emanuele La Malfa领导的一个学术团队上个月发表了一篇研究论文,强调了在四个方面(可访问性、可复制性、可靠性和可信度)中由于缺乏有关大型语言AI模型的信息可能出现的问题。
学者们指出,“商业压力”已经推动市场参与者将其AI模型作为服务提供给客户,通常通过API进行提供。然而,有关模型的架构、实施、训练数据或训练过程的信息既没有提供,也没有公开供检查。
拉马法的团队写道,这种访问限制以及LLM通常是黑盒性质的情况,违反了公众和研究界更好地理解、信任和控制这些模型的需求。他们指出,“这在该领域的核心问题上造成了严重的问题:最强大和风险最高的模型也是最难分析的”。
OpenAI此前曾为不提供其GPT-4版本的详细信息做辩护,指出竞争环境和发布这种大规模模型(包括架构、训练方法和数据集构建等方面)的安全影响是问题所在。
在被问及组织如何采用生成式AI时,Ong Chen Hui表示,在基础模型层将出现两个阵营,一个阵营包括少数专有的大型语言AI模型,如OpenAI的ChatGPT-4,另一个阵营选择基于开源架构构建自己的模型,比如Meta的Llama-v2。
她建议担心透明度的企业可以选择开源方案。
与此同时,企业将越来越多地在基础模型层之上构建,以便部署更符合其特定领域要求的生成式AI应用程序,如教育和金融服务。
此应用层也需要有保护措施,并需要建立透明度和信任,Ong Chen Hui说。
这就是AI Verify希望通过其测试工具包帮助公司朝正确方向发展的地方。她解释说,随着企业在不同市场、地区和行业运营,它们的主要关注点将不是AI模型是否开源,而是它们的生成式AI应用程序是否符合他们的AI伦理和安全原则。
Ong Chen Hui指出,许多企业和政府目前正在测试和评估生成式AI工具,无论是面向消费者还是非消费者的用例。通常情况下,他们会从后者开始,以最小化潜在风险和顾客影响,并在达到一定的舒适水平后将测试试点扩大到包括面向消费者的应用程序。
她补充说,在高度管制的行业,例如金融服务行业,对于面向消费者的应用程序将更加谨慎。
此外,不同国家和社会拥有不同的价值观和文化。各国政府将希望确保AI模型是基于他们的人口独特组合的训练数据和原则构建的。
以新加坡为例,其人口多元、宗教多元、语言多元。种族和谐对其社会来说是独特的,以及国家社会安全储蓄计划等本土结构和政策,Ong Chen Hui说。
她指出,目前广泛使用的LLM在文化问题上的表现不均衡,这是否表明新加坡需要构建自己的LLM,以及作为一个人口较少的国家,是否有足够的数据来训练AI模型需要进行思考。
当被问及是否有办法将不同地区的基础模型融合或整合,使其更适应新加坡的人口混合时,Ong Chen Hui认为不同的LLM可能会相互学习,这是研究领域可以探索的潜在应用。她说,在这方面的努力必须确保数据隐私和敏感数据得到保护。
据Ong Chen Hui介绍,新加坡正在评估此类选项的可行性,包括构建自己的LLM的潜力。
定制化的测试基准将进一步推动针对AI模型进行测试和评估的工具包的重要性,她说。
这些基准将用于测试生成型AI应用程序,包括第三方和特定垂直行业的工具,以确保其部署是负责任和符合伦理的。