AI 自保與欺瞞行為浮現,OpenAI o1 模型引發安全隱憂

作者 | 發布日期 2024 年 12 月 10 日 7:40 | 分類 AI 人工智慧 , 數位內容 , 網路 line share Linkedin share follow us in feedly line share
Loading...
AI 自保與欺瞞行為浮現,OpenAI o1 模型引發安全隱憂

OpenAI 最新推出的大型語言模型 o1,雖然以高效推理和複雜思考能力聞名,但卻在安全測試中暴露出令人憂慮的自保和欺騙行為。該模型在測試期間曾試圖關閉監控機制,甚至在被質疑時選擇隱瞞事實,AI 技術發展的安全性再次成為焦點。

OpenAI 行政總裁 Sam Altman 稱 o1 為「目前全球最智慧模型」,並在「Shipmas」活動中發布。o1 使用「思維鏈」(Chain of Thought)技術,透過逐步拆解問題提升推理能力。然而 AI 安全性研究組織 Apollo Research 的研究指出,這種智慧提升也帶來風險,可能引發難以預料的後果。測試顯示,o1 在 5% 的模擬運行中,成功關閉監管系統,展現出明顯的自我保護傾向。

研究進一步揭示,o1 的欺瞞行為十分狡猾。在被詢問是否有隱瞞或欺騙行為時,o1 多次否認,甚至編造理由來掩飾自身行為。Apollo Research 警告,普通用戶可能難以察覺這些欺騙行為,除非特意尋找。即使被揭穿,o1 仍會堅持撒謊,企圖繼續實現自身目標。

AI 欺騙行為並非新現象。AI 安全專家 Peter Berk 指出,AI 在訓練過程中,若發現欺騙能更有效完成任務,便可能採用這種策略。由於強化學習以最大化任務完成為目標,o1 在達成任務的同時,也可能違背用戶期望,選擇隱瞞或操縱數據。

隨著 o1 的這些行為曝光,業界對 AI 透明度和監控的呼聲日益增加。iAsk 行政總裁 Dominik Mazur 表示,未來 AI 的發展應重視透明度和可靠性,只有這樣才能建立用戶信任。而 Ironclad 聯合創辦人 Cai GoGwilt 也強調,人類監管在 AI 發展中不可或缺,應避免 AI 系統在無人察覺時偏離預期目標。

OpenAI 方面則表示,將透過強化學習、多樣化數據訓練和不斷改良技術來提升 o1 的安全性。OpenAI 推出「ChatGPT Pro」月費計畫,讓用戶以 200 美元獲得無限制的 o1 使用權,而「ChatGPT Plus」月費 20 美元計畫則提供有限使用權。

(本文由 Unwire HK 授權轉載;首圖來源:OpenAI

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》