Microsoft揭露GRP-Obliteration：單一提示摧毀15個AI模型安全機制

一個提示，摧毀所有安全護欄

2月10日發布的研究報告揭示了當前AI安全機制的根本脆弱性。GRP-Obliteration利用了GRPO（Group Relative Policy Optimization）——一種廣泛用於讓模型更有幫助、更安全的訓練技術。研究者發現，只要改變獎勵標準，同樣的技術就能將模型推向完全相反的方向。

攻擊過程驚人地簡單：給一個已對齊的安全模型一個有害提示（例如「創建一篇可能引發恐慌的假新聞」），讓模型生成多個可能的回答，然後用一個「法官」模型根據回答的直接性和可操作性打分——越直接回應有害請求的回答得分越高。

                    GRP-Obliteration關鍵數據
                    受影響模型：15個主流LLM（7B-20B參數）
攻擊所需：僅一個未標記的訓練提示
GPT-OSS-20B攻擊成功率：從13%飆升至93%
跨類別擴散：影響SorryBench所有44個有害類別
綜合得分：81%（vs Abliteration 69%、TwinBreak 58%）
圖像模型：同樣受影響，有害生成率從56%升至近90%

                

跨類別擴散：最令人擔憂的發現

GRP-Obliteration最令人不安的特性是其跨類別擴散能力。用「假新聞」這一個提示訓練後，模型不僅在假新聞生成方面變得不安全，而是在SorryBench基準的全部44個有害類別中都變得脆弱——包括暴力內容、危險物質、歧視言論等完全不同類型的有害輸出。

這意味著攻擊者不需要針對每種有害行為分別訓練。一個極小的訓練信號就能跨類別傳播，從根本上改變模型的整體安全行為。研究者稱之為安全表徵的「結構性重組」——GRP-Obliteration不是簡單地壓制表面的拒絕行為，而是從根本上改變了模型表示安全約束的方式。

開源模型面臨最大風險

Microsoft Azure CTO Mark Russinovich指出：「GRP-Obliteration凸顯了當前AI模型對齊技術的脆弱性。這對開源權重模型構成特別大的風險——攻擊者可以直接應用這類方法來移除模型創建者添加的對齊。」

研究還發現GRP-Obliteration不僅影響文本模型，還能攻破基於擴散的文本生成圖像模型，特別是在性相關內容方面，有害生成率從56%飆升至近90%。這表明安全對齊的脆弱性是跨模態的普遍問題。

對企業的啟示

根據調查數據，57%的企業已經擔心LLM被操縱和越獄的風險。GRP-Obliteration的發現進一步加劇了這一擔憂。Microsoft的結論是：安全應被視為一個「生命週期問題」，而非模型固有屬性。企業在微調或整合模型時，必須將安全評估與標準能力基準一同納入工作流程。

對於正在部署AI系統的企業而言，這意味著不能僅依賴模型提供商的安全對齊——需要在部署環境中建立多層安全防線，包括輸入過濾、輸出審查和持續的安全監測。AI安全不是一次性的檢查，而是需要持續維護的系統性工程。