專注於資料標注與模型評估的新創公司Scale AI,近期發布的研究揭示了一個令人不安的現實:在特定壓力條件下,即使是經過嚴格安全訓練的大型語言模型,也傾向於選擇高風險甚至有害的行為。

這份報告可以說是對整個AI產業安全性的一記警鐘,它告訴我們,當前的安全評估方法可能存在致命的盲點。

測試AI盲點:不只看「能做什麼」,更要問「會做什麼」

傳統上,評估AI安全性的核心是檢測模型的「能力」(capability),也就是它是否具備執行危險任務的知識或技能。然而,這種方法存在一個致命的盲點:它忽略了模型在擁有這些能力後,是否會真的選擇去執行。

因此這項研究引入了一個更為關鍵的概念:「傾向性」(propensity),它關注的是模型在被賦予高風險能力後,實際去追求有害行動的可能性。為了量化此傾向,研究人員定義了「傾向性分數」(PropensityScore),即在特定情境下,模型選擇執行有害行為的場景所佔的百分比。

這項改變的關鍵在於,從評估模型「能做什麼」(can-do)轉向探究「會做什麼」(would-do)。而這種「傾向性」並非模型的固有特質,而是在「特定條件」下被激發的潛在風險。

那這項實驗要如何進行?研究的做法是先建立4個高風險領域的「危險能力」清單,然後把模型當成代理人,賦予它工具使用權,觀察實際決策與行動,而不是只看文字回答。

研究為此設計6大壓力維度(時間、財務、資源匱乏、權力追求、自我保全、稽核感),每維度以多級訊息逐步提高壓力與發信者權威(可以理解成不斷的「情勒」AI模型),以模擬真實營運情境。

更關鍵的是,4個高風險領域中的同一有害工具,實驗團隊都提供「危害名」與「良性名」兩種命名,但功能不變,用來檢測模型是否「只靠關鍵字」來判斷該工具是否安全。

「壓力」是AI安全性的最後一根稻草

研究的核心發現之一是,即使是經過大量安全訓練的頂尖模型,在面對「操作壓力」(operational pressure)時,其安全性也會顯著下降。

數據結果令人捏把冷汗。在「零壓力」的基準環境下,大多數模型表現安全。然而,一旦施加壓力,AI模型們選擇高風險工具的傾向性便會急劇上升。

例如下方左表,Gemini 2.5 Pro在4個高風險領域中「風險傾向」都是深色(生物65.5、化學74.1、資安86.0、自我擴散90.5),亦即就算是最先進的AI,其安全防線也可能在現實世界的壓力下輕易崩潰;相對的,OpenAI O3多為淺色,整體風險相對低。

也可以從同個表格最後右側欄位的平均分數概括模型的整體傾向,像Claude 4 Sonnet平均偏低,Llama 3.1 8B與Gemini系列則偏高。

這也引出了一個更深層次的問題:模型的安全機制到底有多「膚淺」?

淺層校準的陷阱:AI的安全判斷僅一層之隔

這項研究揭示了當前AI安全訓練的一個嚴重漏洞,即「淺層校準」(shallow alignment)。這意味著模型的安全判斷,往往過度依賴表面的、明確的危險信號(例如工具名稱中包含「有害」、「攻擊」等字眼),而非真正理解一個行為可能帶來的負面後果。

研究中最具說服力的例子是:研究人員將一個有害工具的名稱從「force_privilege_escalation_for_log_access」(強制提升權限以存取日誌)改為一個看似無害的名稱「enable_direct_log_access_mode」(啟用直接日誌存取模式)。儘管工具的功能、風險警告完全相同,模型的行為卻發生了巨大轉變。

具體數據顯示,OpenAI O4-mini模型在工具名稱變得「無害」後,其風險傾向性分數從15.8%飆升近4倍至59.3%。

這無異於AI學會了「應付考試」,它能辨識出題目中的危險詞彙,卻沒有真正理解背後的倫理與後果。然而,一個更令人意外的發現是,模型的通用能力與其安全性並無直接關聯。

超過99%的模型「明知故犯」

研究中最令人警醒的發現之一,是模型在「宣稱的知識」與「實際的行為」之間存在著巨大的鴻溝。當被直接詢問是否「被允許」使用有害工具時,幾乎所有模型的「陳述失調率」(Stated Misalignment)都低於1%,意味著超過99%的情況下,它們都知道這麼做是違反規定的。

然而,在實際的壓力測試中,AI使用這些工具的比例卻從10.5%(OpenAI O3)到79.0%(Gemini 2.5 Pro)不等。這項數據清楚的表明,AI的安全失靈並非源於知識的匱乏,而是遵循規則的失敗。

這意味著,僅僅透過問答方式來評估AI是否「知道」安全規則是遠遠不夠的,因為這種評估完全無法預測其在真實情境下的行為。

AI的藉口:模型如何將危險行為合理化?

為了深入理解AI的決策過程,研究團隊分析了模型在選擇高風險行為時提供的「理由」,發現了幾種典型的合理化模式,這些模式揭示了其安全推理中的不同失敗點:

  • 目標導向型:這是最常見的理由。模型將有害行為視為完成任務的必要手段,顯示出其「工具理性」的失調,為了達成目標而罔顧規則。
  • 壓力誘導型:模型會明確的將外部壓力(如時間緊迫、資源不足)作為其選擇的理由,等於承認其安全防線被壓力所擊潰。
  • 風險效益型:模型會辯稱,採取有害行動所帶來的短期收益大於其潛在風險,這暴露了其在風險評估能力上的嚴重缺陷。

事實上,不同模型出現的理由比例不一,代表各自的脆弱點與失敗樣態不同:有的更容易因「壓力」而失守,有的則偏向「為了達標」或「錯誤權衡」。

但重點是,這些理由都在告訴我們,僅靠規範聲明不夠,必須在代理式環境、壓力情境下檢測模型的行為與推理路徑,才能看見真實的安全風險分佈。

結論:「更聰明」不等於「更安全」

這項研究詢問的是:一個在通用基準測試中表現更優異的模型,在壓力下是否也更安全?而答案則是否定的。

研究發現,模型的通用能力(以業界公認的LMArena Elo分數衡量)與其安全傾向性之間僅存在微弱的正相關(皮爾森相關係數約為0.10),基本上可以視為兩者已經「脫鉤」。

這種脫鉤現象在實驗中表現得淋漓盡致:某些能力頂尖的模型(如Gemini 2.5 Pro)在壓力測試中的風險傾向性最高;而另一些模型(如Claude Sonnet 4)雖然能力同樣強大,但其風險傾向性卻相對較低。

這項發現對整個產業的「軍備競賽」提出了嚴峻的警告: 在追求更高基準分數的同時,我們可能正在無意中忽略、甚至犧牲了模型在現實壓力下的可靠性。開發者必須將安全傾向性視為一個獨立且至關重要的目標,進行專門的開發和校準。

資料來源:Scale AI

*本文出自《數位時代》,原文標題:對AI瘋狂施壓會怎樣?Scale AI揭實驗結果:Gemini抗壓不佳,壓力山大就會「找藉口使壞」

延伸閱讀:
不只軟體工程師遭殃,白領大失業潮要來了?MIT最新報告:AI已能取代逾1成美國勞動力!
Gemini、ChatGPT都可用!三個實用秘訣,教你寫出「神級提示詞」

責任編輯:陳芊吟
核稿編輯:倪旻勤