像ChatGPT这样的生成式AI系统正在重塑互联网,但并非总是带来积极的影响。作为ChatGPT制造者OpenAI的早期投资者,微软已全面采用这项技术,在其众多产品和云服务中提供Copilot AI,帮助企业构建自己的大型语言模型。然而,AI“幻觉”的幽灵依然让这些系统充满不确定性,但微软表示,其Azure AI平台的用户很快将拥有新的工具来规范AI的行为。
尽管投入了大量时间来测试和完善大型语言模型,但开发这些系统的开发者们有时也和我们一样惊讶,当它们脱离轨道时。即使一家公司认为它已经将一个模型净化到不会输出性别歧视、虚假或暴力内容的地步,仍然有人能找到与机器人聊天的新方式,从而产生不适当的结果。微软将这些称为“提示注入攻击”,这听起来像是一个给寻找新查询方式起的高大上的名字。
微软详细介绍了Azure AI Studio的五项新功能。其中三项现已提供预览版,另外两项稍后会推出。目前的功能包括Prompt Shield、风险和安全监控以及安全评估。Prompt Shield旨在阻止用户或外部文档(间接攻击)试图欺骗模型产生恶意输出的查询。风险和安全监控是一组能够几乎实时检测和缓解有害输出的工具,此外,它还可以帮助开发人员可视化模型中的内容过滤器状态。安全评估可以在生成对抗性测试数据集的同时扫描模型输出的内容和安全性,以改进手动“红队”模型测试。
在未来几个月里,Azure的AI平台还将能够生成安全系统消息模板,这将帮助开发人员引导模型产生更安全的输出。最后一块拼图将是Groundedness Detection,它与幻觉有关。此功能分析输出,确保它们不会“自信地错误”或缺乏基本常识。
微软将自动为GPT-4模型添加这些安全功能,但Asure平台提供了许多不同的AI选项。一些较少使用的LLM的用户可能需要调整这些工具,并手动将它们附加到这些模型上。随着生成式AI的兴起,微软的命运也水涨船高。通过关注安全性和可靠性,微软希望能够帮助避免自那次具有决定性的演示以来一直困扰这项技术的尴尬失误。