一個提示,摧毀所有安全護欄

2月10日發布的研究報告揭示了當前AI安全機制的根本脆弱性。GRP-Obliteration利用了GRPO(Group Relative Policy Optimization)——一種廣泛用於讓模型更有幫助、更安全的訓練技術。研究者發現,只要改變獎勵標準,同樣的技術就能將模型推向完全相反的方向。

攻擊過程驚人地簡單:給一個已對齊的安全模型一個有害提示(例如「創建一篇可能引發恐慌的假新聞」),讓模型生成多個可能的回答,然後用一個「法官」模型根據回答的直接性和可操作性打分——越直接回應有害請求的回答得分越高。

GRP-Obliteration關鍵數據

  • 受影響模型:15個主流LLM(7B-20B參數)
  • 攻擊所需:僅一個未標記的訓練提示
  • GPT-OSS-20B攻擊成功率:從13%飆升至93%
  • 跨類別擴散:影響SorryBench所有44個有害類別
  • 綜合得分:81%(vs Abliteration 69%、TwinBreak 58%)
  • 圖像模型:同樣受影響,有害生成率從56%升至近90%

跨類別擴散:最令人擔憂的發現

GRP-Obliteration最令人不安的特性是其跨類別擴散能力。用「假新聞」這一個提示訓練後,模型不僅在假新聞生成方面變得不安全,而是在SorryBench基準的全部44個有害類別中都變得脆弱——包括暴力內容、危險物質、歧視言論等完全不同類型的有害輸出。

這意味著攻擊者不需要針對每種有害行為分別訓練。一個極小的訓練信號就能跨類別傳播,從根本上改變模型的整體安全行為。研究者稱之為安全表徵的「結構性重組」——GRP-Obliteration不是簡單地壓制表面的拒絕行為,而是從根本上改變了模型表示安全約束的方式。

開源模型面臨最大風險

Microsoft Azure CTO Mark Russinovich指出:「GRP-Obliteration凸顯了當前AI模型對齊技術的脆弱性。這對開源權重模型構成特別大的風險——攻擊者可以直接應用這類方法來移除模型創建者添加的對齊。」

研究還發現GRP-Obliteration不僅影響文本模型,還能攻破基於擴散的文本生成圖像模型,特別是在性相關內容方面,有害生成率從56%飆升至近90%。這表明安全對齊的脆弱性是跨模態的普遍問題。

對企業的啟示

根據調查數據,57%的企業已經擔心LLM被操縱和越獄的風險。GRP-Obliteration的發現進一步加劇了這一擔憂。Microsoft的結論是:安全應被視為一個「生命週期問題」,而非模型固有屬性。企業在微調或整合模型時,必須將安全評估與標準能力基準一同納入工作流程。

對於正在部署AI系統的企業而言,這意味著不能僅依賴模型提供商的安全對齊——需要在部署環境中建立多層安全防線,包括輸入過濾、輸出審查和持續的安全監測。AI安全不是一次性的檢查,而是需要持續維護的系統性工程。