Claude 3.5 Sonnet 有「情感誤導漏洞」,可能產生有害內容

作者 | 發布日期 2024 年 10 月 15 日 8:10 | 分類 AI 人工智慧 , 數位內容 , 網路 line share Linkedin share follow us in feedly line share
Loading...
Claude 3.5 Sonnet 有「情感誤導漏洞」,可能產生有害內容

生成式 AI 雖然多內建安全防範措施,避免用戶產生有害內容,不過百密總有一疏,有人發現 Claude 3.5 Sonnet 的漏洞,以強烈情緒化指示就能繞過安全限制。

The Register 引述消息,只要持續用情緒化提示,Anthropic Claude 3.5 Sonnet 就會無法維持安全限制,讓 AI 聊天機器人誘導產生種族主義仇恨言論和惡意軟體等有害內容。

這發現引發對 Anthropic 安全措施有效性的擔憂,不過最初發現漏洞的大學生擔心可能面臨法律官司,故不再繼續深究,教授也支持他們,認為公開研究可能會使學生面臨不必要的關注和責任。

Illinois 大學 Urbana-Champaign 分校電腦科學系助理教授 Daniel Kang 表示:「眾所周知,所有頂尖模型都可能操縱以繞過安全過濾。」他指「越獄」社群,情感操縱或角色扮演是繞過安全措施的標準手法。他補充:「紅隊測試社群,廣泛認知沒有任何實驗室安全措施能 100% 成功保護 LLM。」

Anthropic 則表示,已就這問題與大學生溝通兩星期,不過暫時未評論此「越獄」手法。Anthropic 有「負責任披露政策」,確保研究員「安全港」保護。Anthropic 說非常歡迎 AI 安全性、「越獄」和類似問題的報告,以加強模型安全性和無害性。

(本文由 Unwire Pro 授權轉載;首圖來源:shutterstock)

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》