谷歌近日推出了前沿安全框架(Frontier Safety Framework),这是一套旨在预先识别和缓解未来人工智能系统潜在威胁的策略体系。该框架的核心在于通过实施一系列机制,及时发现并处理潜在风险,从而走在风险前面,确保AI系统的稳健运行。
前沿安全框架主要关注由高级AI模型带来的重大风险,特别是那些具备高度自主性和复杂网络功能的模型。它的设计初衷是补充谷歌现有的AI安全实践和对齐研究,以确保AI的行为能够符合人类社会的价值观和道德规范。
该框架由三个核心部分组成:
初期阶段,该框架将重点关注四个领域:自主性、生物安全、网络安全和机器学习研发。针对每个领域,谷歌都明确了具体的CCLs以及相应的安全和部署缓解措施。
以自主性领域为例,一个关键能力可能是一个AI模型能够自主获取资源并维持自身的额外副本。在网络安全领域,一个关键能力可能是一个能够自动化执行机会性网络攻击的模型。
与此同时,其他研究机构如OpenAI和Anthropic也在积极投入AI安全研究。OpenAI去年发布了他们的准备框架,并概述了一系列关键安全措施,旨在保护AI技术免受滥用。Anthropic也在多个方面积极开展AI安全研究,包括提高AI的可解释性、可扩展的监督、测试潜在的危险故障模式以及评估其社会影响等。这些努力共同体现了AI研究社区对主动应对高级AI系统潜在风险的重视。
谷歌的框架尚处于探索阶段,预计将在实施过程中不断学习和完善,并通过与行业、学术界和政府的合作,共同推动AI技术的健康发展。他们计划在2025年初之前全面实施这一初始框架。