Claude 3.5 Sonnet 有「情感誤導漏洞」，可能產生有害內容

生成式 AI 雖然多內建安全防範措施，避免用戶產生有害內容，不過百密總有一疏，有人發現 Claude 3.5 Sonnet 的漏洞，以強烈情緒化指示就能繞過安全限制。

The Register 引述消息，只要持續用情緒化提示，Anthropic Claude 3.5 Sonnet 就會無法維持安全限制，讓 AI 聊天機器人誘導產生種族主義仇恨言論和惡意軟體等有害內容。

這發現引發對 Anthropic 安全措施有效性的擔憂，不過最初發現漏洞的大學生擔心可能面臨法律官司，故不再繼續深究，教授也支持他們，認為公開研究可能會使學生面臨不必要的關注和責任。

Illinois 大學 Urbana-Champaign 分校電腦科學系助理教授 Daniel Kang 表示：「眾所周知，所有頂尖模型都可能操縱以繞過安全過濾。」他指「越獄」社群，情感操縱或角色扮演是繞過安全措施的標準手法。他補充：「紅隊測試社群，廣泛認知沒有任何實驗室安全措施能 100% 成功保護 LLM。」

Anthropic 則表示，已就這問題與大學生溝通兩星期，不過暫時未評論此「越獄」手法。Anthropic 有「負責任披露政策」，確保研究員「安全港」保護。Anthropic 說非常歡迎 AI 安全性、「越獄」和類似問題的報告，以加強模型安全性和無害性。