英伟达的NeMo Guardrails增强了生成式AI应用程序的安全性
2023年06月15日 由 daydream 发表
578584
0
英伟达针对大型语言模型(LLM)的新 NeMo Guardrails 软件包可帮助开发人员防止 LLM 风险,例如有害或冒犯性内容以及对敏感数据的访问。这项创新对开发人员至关重要,因为它提供了多种功能来控制这些模型的行为,从而确保其更安全的部署。具体来说, NeMo Guardrails有助于降低 LLM 生成有害或冒犯性内容的风险,从而在日益由人工智能驱动的环境中提供必要的保护。
NeMo Guardrails通过提供多种功能来控制这些模型的行为,帮助开发人员降低与 LLM 相关的风险。该软件包基于 Colang 构建,Colang 是英伟达为对话式 AI 开发的建模语言和运行时。“如果你有一个客服聊天机器人,专门用来谈论你的产品,你可能不希望它回答有关我们竞争对手的问题,”英伟达应用研究副总裁乔纳森·科恩(Jonathan Cohen)说。"你希望监控对话,如果发生此情况,你希望将对话引导回你喜欢的话题上。"
NeMo Guardrails目前支持三大类:主题、安全和安保。主题确保对话专注于特定主题。安全确保与LLM的互动不会导致错误信息,有害的回复或不适当的内容。他们还执行策略以提供适当的回应,防止人工智能系统遭到黑客攻击。安全保护还防止LLM以危险的方式执行恶意代码或调用外部应用程序。
Guardrails 具有沙盒环境,允许开发人员在不危及生产系统的情况下自由试验 AI 模型,从而降低生成有害或冒犯性内容的风险。此外,还提供风险仪表板,可以持续跟踪和审查AI模型的使用情况,帮助开发者在问题变得严重之前识别和减轻潜在风险。此外,它提供了一套明确的政策和指南,旨在引导组织内的AI使用。
人们普遍对NeMo Guardrails持积极态度,但也有人对其局限性表示谨慎。在使用这个LLM包时,开发人员需要注意某些限制和约束。寒武纪人工智能研究公司的卡尔·弗罗因德(Karl Freund)写道:“恶意行为者可能会绕过或以其他方式破坏护栏,他们可以利用系统中的弱点来生成有害或误导性信息”。越狱,幻觉和其他问题仍然是活跃的研究领域,目前没有系统实施全面的保护。
在处理大型语言模型时,还存在其他工具来确保安全。例如,语言模型查询语言(LMQL)旨在进行自然语言提示,它是基于Python构建的。微软的指导框架也可以用于解决LLM无法保证输出遵循特定数据格式的问题。
英伟达建议将Guardrails作为第二道防线,建议开发和部署聊天机器人的公司仍应根据一套多层保护措施对模型进行训练。
来源:https://www.infoq.com/news/2023/06/nvidia-nemo-safety-ai/