如何給智能體裝個「AI護欄」?英偉達有3項全新微服務
雷峰網 (公眾號:雷峰網) 消息,紐約大學研究人員發現,如果一個給定語言模型的訓練數據中有 0.001% 的數據 “中毒”(即故意植入錯誤信息),那么整個訓練集將可能傳播這些錯誤。
數據“中毒”影響訓練結果,AI的實際部署,安全性同樣至關重要。
咨詢公司Gartner預測,到2028年,AI智能體將完成 至少15%的日常工作決策并被應用于33%的企業程序。 大量的AI智能體開發需求,讓企業解決其中的 信任、物理安全、網絡安全以及合規性 等問題顯得更加迫在眉睫。
近日,英偉達發布了全新的 保障代理式AI應用安全的NIM微服務,這將消除企業部署生成式AI時的安全疑慮,并且為生成式AI的普及提供安全保障。
全新的NIM微服務是NeMo Guardrails軟件工具系列的一部分,這些可移植且經過優化的推理微服務可以幫助企業提高生成式AI應用的 安全性、精準性和可擴展性。
3項NIM微服務,兼顧高安全性和低延遲
NVIDIA NeMo Guardrails是一個開源工具包,允許開發者將 可編程護欄 添加到基于LLM的會話系統中,從而保障人工智能系統的安全與合規。
NeMo Guardrails引入的三項全新微服務,能夠幫助AI智能體在 大規模運行時能同時保持受控行為。
內容安全NIM微服務(Content Safety NIM)使用了質量較高的人工注釋數據源 Aegis內容安全數據集 進行訓練,該數據集包含 超過35000個人工標記的數據樣本 ,由英偉達整理并開源,已經在Hugging Face公開發布。高質量的數據集能夠有效防止AI生成有偏見或有害的輸出結果,確保回答符合道德標準。
英偉達的企業AI模型、軟件與服務副總裁Kari Briski表示: “這是同類數據集中質量最高的數據源之一。”
話題控制NIM微服務(Topic Control NIM)能將對話聚焦在經過審核的話題上, 避免離題或不當內容。
越獄檢測NIM微服務(Jailbreak Detection NIM)增加了對越獄企圖( 指繞過模型的安全防護措施,讓模型執行禁止的行為)的防護,幫助在對抗性場景中保持AI的完整性。
由于 “一刀切” 的方法無法有效保護和控制復雜的代理式AI工作流,通過應用多個輕量級專業模型作為護欄,開發者可以彌補在只采取較為通用的全局策略和保護措施時可能出現的漏洞。
可編程護欄數量的增加雖然能提升保障能力,但也會導致延遲有所上升,NeMo Guardrails以最小延遲提升保障能力, 極具“性價比”。
-
當護欄數量為0(僅系統提示)時,延遲約為0.75秒,合規性為1X(基準)。
-
當護欄數量為1時,延遲增加到約1秒,合規性提升到1.1X。
-
當護欄數量為5時,延遲約為1.25秒,合規性達到1.5X。
增加到5個護欄,延遲僅增加約1.25秒。與增加1個護欄,延遲增加1秒對比,實現顯著的優化。這表明,NeMo Guardrails在提升保障能力的同時,對延遲的影響較小, 能夠在保證系統性能的前提下提高安全性和合規性。
給汽車、零售、電信等行業的安全、精準、可擴展的「AI護欄」
NeMo Guardrails已向開源社區開放,其NIM微服務解決企業級客戶的“后顧之憂”,使開發者能夠構建 更加安全、可信的AI智能體。 智能體通過參考特定語境準則做出安全、適當的回答,并且加強了對越獄企圖的抵御力度, 實現了在汽車、金融、醫療、制造、零售等行業客戶服務中的部署。
軟件和服務解決方案提供商Amdocs推出的amAIz平臺是一個開創性的電信生成式AI框架,通過集成NVIDIA NeMo Guardrails,增強了平臺的可信AI功能,保障代理式體驗的 安全性、可靠性和可擴展性 ,從而讓服務提供商能夠安全部署AI解決方案。
Amdocs技術集團總裁兼戰略主管Anthony Goonetilleke表示:“像NeMo Guardrails這樣的技術對于保障生成式AI應用的安全至關重要, 能夠幫助AI安全、道德地運行。”
專注于為汽車行業提供AI解決方案的Cerence AI,通過NVIDIA NeMo Guardrails幫助車載助手在其CaLLM系列大語言和小語言模型的支持下 提供符合語境的安全交互。
Cerence AI產品和技術執行副總裁Nils Schanz表示:“NeMo Guardrails可以幫助我們為汽車制造商客戶提供可信的情境感知解決方案,并作出 明智、嚴謹且無幻覺的回答。”
在面向客戶的專業知識應用上,更需保證AI生成式回答的安全性與可靠性。
家居裝飾零售商勞氏公司通過利用生成式AI鞏固店員的專業知識,以此讓員工在面對客戶的問題時能夠“對答如流”。這背后,是NVIDIA NeMo Guardrails將AI的回答 “框定” 在正確的范圍內,確保輸出的內容 “不翻車” 。
勞氏公司的數據、AI和創新高級副總裁Chandhu Nair則表示:“我們一直在尋找方法幫助員工為客戶提供超出預期的服務。通過部署NVIDIA NeMo Guardrails,保證了AI生成式回答的安全性與可靠性, 將對話強行限制在相關和適當的內容范圍內。”
值得一提的是,NeMo Guardrails還 具備較好的開放性和可擴展性 ,可集成由AI安全模型和防護提供商組成的生態系統,以及AI可觀察性和開發工具。支持與ActiveFence的ActiveScore(AI安全服務)集成,防止對話式AI應用出現有害或不當內容,并提供可視化、分析和監控功能。
區塊鏈基礎設施公司Hive以NIM微服務形式提供適用于圖像、視頻和音頻內容的AI生成內容檢測模型,通過使用NeMo Guardrails,Hive可將其模型集成到AI應用中并進行編排。
AI可觀測性平臺Fiddler與NeMo Guardrails集成, 可增強其監控功能。 端到端AI開發者平臺Weights & Biases正在現有NIM集成組合基礎上,通過增加與NeMo Guardrails微服務的集成來擴展W&B Weave的功能,以此提升AI推理能力。
此外,NeMo Guardrails還提供用于AI安全測試和漏洞掃描的開源套件NVIDIA Garak,用于LLM和應用漏洞掃描,借助Garak,開發者可以發現使用LLM中的系統中存在的漏洞,發現并解決AI模型中的潛在弱點,提高模型的穩健性與安全性。
目前,NVIDIA NeMo Guardrails微服務以及用于編排rail的NeMo Guardrails和NVIDIA Garak套件已向開發者和企業開放,開發者按照官網上的教程就可以使用NeMo Guardrails為AI客服智能體構建AI護欄。
雷峰網原創文章,未經授權禁止轉載。詳情見 轉載須知 。