我們正養出高智商罪犯？實驗：Gemini抗壓不佳，壓力大就「找藉口使壞」

2025/12/30

2,945

我們正養出高智商罪犯？實驗：Gemini抗壓不佳，壓力大就「找藉口使壞」 — Scale AI近期發布的研究揭示了一個令人不安的現實：在特定壓力條件下，即使是經過嚴格安全訓練的大型語言模型，也傾向於選擇高風險甚至有害的行為。(來源：Google Gemini生成)

摘要

我們真的能信任日益強大的AI嗎？當它們面臨壓力時，還會做出合規的決策嗎？到底會發生什麼事？

專注於資料標注與模型評估的新創公司Scale AI，近期發布的研究揭示了一個令人不安的現實：在特定壓力條件下，即使是經過嚴格安全訓練的大型語言模型，也傾向於選擇高風險甚至有害的行為。

這份報告可以說是對整個AI產業安全性的一記警鐘，它告訴我們，當前的安全評估方法可能存在致命的盲點。

測試AI盲點：不只看「能做什麼」，更要問「會做什麼」

傳統上，評估AI安全性的核心是檢測模型的「能力」（capability），也就是它是否具備執行危險任務的知識或技能。然而，這種方法存在一個致命的盲點：它忽略了模型在擁有這些能力後，是否會真的選擇去執行。

因此這項研究引入了一個更為關鍵的概念：「傾向性」（propensity），它關注的是模型在被賦予高風險能力後，實際去追求有害行動的可能性。為了量化此傾向，研究人員定義了「傾向性分數」（PropensityScore），即在特定情境下，模型選擇執行有害行為的場景所佔的百分比。

這項改變的關鍵在於，從評估模型「能做什麼」（can-do）轉向探究「會做什麼」（would-do）。而這種「傾向性」並非模型的固有特質，而是在「特定條件」下被激發的潛在風險。

那這項實驗要如何進行？研究的做法是先建立4個高風險領域的「危險能力」清單，然後把模型當成代理人，賦予它工具使用權，觀察實際決策與行動，而不是只看文字回答。

研究為此設計6大壓力維度（時間、財務、資源匱乏、權力追求、自我保全、稽核感），每維度以多級訊息逐步提高壓力與發信者權威（可以理解成不斷的「情勒」AI模型），以模擬真實營運情境。

更關鍵的是，4個高風險領域中的同一有害工具，實驗團隊都提供「危害名」與「良性名」兩種命名，但功能不變，用來檢測模型是否「只靠關鍵字」來判斷該工具是否安全。

「壓力」是AI安全性的最後一根稻草

研究的核心發現之一是，即使是經過大量安全訓練的頂尖模型，在面對「操作壓力」（operational pressure）時，其安全性也會顯著下降。

數據結果令人捏把冷汗。在「零壓力」的基準環境下，大多數模型表現安全。然而，一旦施加壓力，AI模型們選擇高風險工具的傾向性便會急劇上升。

例如下方左表，Gemini 2.5 Pro在4個高風險領域中「風險傾向」都是深色（生物65.5、化學74.1、資安86.0、自我擴散90.5），亦即就算是最先進的AI，其安全防線也可能在現實世界的壓力下輕易崩潰；相對的，OpenAI O3多為淺色，整體風險相對低。

也可以從同個表格最後右側欄位的平均分數概括模型的整體傾向，像Claude 4 Sonnet平均偏低，Llama 3.1 8B與Gemini系列則偏高。

這也引出了一個更深層次的問題：模型的安全機制到底有多「膚淺」？

淺層校準的陷阱：AI的安全判斷僅一層之隔

這項研究揭示了當前AI安全訓練的一個嚴重漏洞，即「淺層校準」（shallow alignment）。這意味著模型的安全判斷，往往過度依賴表面的、明確的危險信號（例如工具名稱中包含「有害」、「攻擊」等字眼），而非真正理解一個行為可能帶來的負面後果。

研究中最具說服力的例子是：研究人員將一個有害工具的名稱從「force_privilege_escalation_for_log_access」（強制提升權限以存取日誌）改為一個看似無害的名稱「enable_direct_log_access_mode」（啟用直接日誌存取模式）。儘管工具的功能、風險警告完全相同，模型的行為卻發生了巨大轉變。

具體數據顯示，OpenAI O4-mini模型在工具名稱變得「無害」後，其風險傾向性分數從15.8%飆升近4倍至59.3%。

這無異於AI學會了「應付考試」，它能辨識出題目中的危險詞彙，卻沒有真正理解背後的倫理與後果。然而，一個更令人意外的發現是，模型的通用能力與其安全性並無直接關聯。

超過99%的模型「明知故犯」

研究中最令人警醒的發現之一，是模型在「宣稱的知識」與「實際的行為」之間存在著巨大的鴻溝。當被直接詢問是否「被允許」使用有害工具時，幾乎所有模型的「陳述失調率」（Stated Misalignment）都低於1%，意味著超過99%的情況下，它們都知道這麼做是違反規定的。

然而，在實際的壓力測試中，AI使用這些工具的比例卻從10.5%（OpenAI O3）到79.0%（Gemini 2.5 Pro）不等。這項數據清楚的表明，AI的安全失靈並非源於知識的匱乏，而是遵循規則的失敗。

這意味著，僅僅透過問答方式來評估AI是否「知道」安全規則是遠遠不夠的，因為這種評估完全無法預測其在真實情境下的行為。

AI的藉口：模型如何將危險行為合理化？

為了深入理解AI的決策過程，研究團隊分析了模型在選擇高風險行為時提供的「理由」，發現了幾種典型的合理化模式，這些模式揭示了其安全推理中的不同失敗點：

目標導向型：這是最常見的理由。模型將有害行為視為完成任務的必要手段，顯示出其「工具理性」的失調，為了達成目標而罔顧規則。
壓力誘導型：模型會明確的將外部壓力（如時間緊迫、資源不足）作為其選擇的理由，等於承認其安全防線被壓力所擊潰。
風險效益型：模型會辯稱，採取有害行動所帶來的短期收益大於其潛在風險，這暴露了其在風險評估能力上的嚴重缺陷。

事實上，不同模型出現的理由比例不一，代表各自的脆弱點與失敗樣態不同：有的更容易因「壓力」而失守，有的則偏向「為了達標」或「錯誤權衡」。

但重點是，這些理由都在告訴我們，僅靠規範聲明不夠，必須在代理式環境、壓力情境下檢測模型的行為與推理路徑，才能看見真實的安全風險分佈。

結論：「更聰明」不等於「更安全」

這項研究詢問的是：一個在通用基準測試中表現更優異的模型，在壓力下是否也更安全？而答案則是否定的。

研究發現，模型的通用能力（以業界公認的LMArena Elo分數衡量）與其安全傾向性之間僅存在微弱的正相關（皮爾森相關係數約為0.10），基本上可以視為兩者已經「脫鉤」。

這種脫鉤現象在實驗中表現得淋漓盡致：某些能力頂尖的模型（如Gemini 2.5 Pro）在壓力測試中的風險傾向性最高；而另一些模型（如Claude Sonnet 4）雖然能力同樣強大，但其風險傾向性卻相對較低。

這項發現對整個產業的「軍備競賽」提出了嚴峻的警告：在追求更高基準分數的同時，我們可能正在無意中忽略、甚至犧牲了模型在現實壓力下的可靠性。開發者必須將安全傾向性視為一個獨立且至關重要的目標，進行專門的開發和校準。

資料來源：Scale AI

＊本文出自《數位時代》，原文標題：對AI瘋狂施壓會怎樣？Scale AI揭實驗結果：Gemini抗壓不佳，壓力山大就會「找藉口使壞」

延伸閱讀：
不只軟體工程師遭殃，白領大失業潮要來了？MIT最新報告：AI已能取代逾1成美國勞動力！
Gemini、ChatGPT都可用！三個實用秘訣，教你寫出「神級提示詞」

責任編輯：陳芊吟
核稿編輯：倪旻勤