生成式 AI 雖然多內建安全防範措施,避免用戶產生有害內容,不過百密總有一疏,有人發現 Claude 3.5 Sonnet 的漏洞,以強烈情緒化指示就能繞過安全限制。
The Register 引述消息,只要持續用情緒化提示,Anthropic Claude 3.5 Sonnet 就會無法維持安全限制,讓 AI 聊天機器人誘導產生種族主義仇恨言論和惡意軟體等有害內容。
這發現引發對 Anthropic 安全措施有效性的擔憂,不過最初發現漏洞的大學生擔心可能面臨法律官司,故不再繼續深究,教授也支持他們,認為公開研究可能會使學生面臨不必要的關注和責任。
Illinois 大學 Urbana-Champaign 分校電腦科學系助理教授 Daniel Kang 表示:「眾所周知,所有頂尖模型都可能操縱以繞過安全過濾。」他指「越獄」社群,情感操縱或角色扮演是繞過安全措施的標準手法。他補充:「紅隊測試社群,廣泛認知沒有任何實驗室安全措施能 100% 成功保護 LLM。」
Anthropic 則表示,已就這問題與大學生溝通兩星期,不過暫時未評論此「越獄」手法。Anthropic 有「負責任披露政策」,確保研究員「安全港」保護。Anthropic 說非常歡迎 AI 安全性、「越獄」和類似問題的報告,以加強模型安全性和無害性。
(本文由 Unwire Pro 授權轉載;首圖來源:shutterstock)






