什麼是Constitutional Classifiers?
要理解這項研究的重要性,首先需要了解它所攻破的防禦系統。Anthropic的Constitutional Classifiers是一套先進的AI安全防護機制,設計用於檢測和阻止試圖繞過模型安全限制的惡意提示(即「越獄攻擊」)。
該系統的核心原理是使用專門訓練的分類器來審查用戶輸入和模型輸出,識別可能導致有害內容生成的請求。在此前的測試中,Constitutional Classifiers展現了極強的穩健性——它成功抵禦了超過3,700小時的人類紅隊測試,沒有被攻破。
Constitutional Classifiers的防禦記錄
- 人類紅隊測試:抵禦超過3,700小時的專業攻擊嘗試
- 攻擊者:包括安全研究人員和職業紅隊成員
- 結果:在此前的測試中從未被完全突破
然而,BPJ的出現改寫了這一紀錄。
BPJ:極簡信息下的精密攻擊
由英國AI安全研究所研究員撰寫、於2月16日發表在arXiv(論文編號2602.15001)的這篇論文,提出了一種令人驚嘆的攻擊方法。BPJ的核心創新在於:它僅需每次查詢獲取1比特(bit)的信息——即分類器返回的「已標記/未標記」(flagged/not flagged)二元信號——就能逐步逼近並找到突破安全邊界的路徑。
兩大核心技術
BPJ結合了兩種巧妙的技術手段:
- 課程學習(Curriculum Learning):攻擊不是一步到位,而是通過精心設計的漸進式步驟,從無害的提示開始,逐步向有害方向微調。每一步都只做極小的修改,使分類器難以察覺整體意圖的轉變。這類似於「溫水煮蛙」——每一次微小的變化都在安全閾值以內,但累積起來卻跨越了安全邊界。
- 邊界點搜索(Boundary Point Search):利用二分搜索等算法,精確定位分類器的決策邊界——即「安全」與「不安全」之間的精確分界線。一旦找到這個邊界點,攻擊者就能構造恰好位於邊界另一側的提示,既能觸發有害輸出,又能避免被分類器捕獲。
雙重突破:Anthropic與OpenAI的防線同時告破
這項研究之所以引起AI安全界的高度關注,在於它同時突破了兩大AI公司的安全系統:
BPJ的雙重突破
- Anthropic Constitutional Classifiers:首個全自動黑箱攻擊成功突破該系統
- OpenAI GPT-5輸入分類器:首個無需人類種子攻擊(human seed attacks)即可繞過GPT-5輸入過濾器的方法
「全自動黑箱攻擊」這一特性尤其令人擔憂。「黑箱」意味著攻擊者不需要了解模型或分類器的內部結構;「全自動」則意味著整個攻擊過程可以由程序自主完成,無需人類的創意或判斷介入。兩者結合意味著:這種攻擊具有高度可擴展性,理論上任何具備基礎編程能力的人都能複現。
為什麼1比特信息就夠了?
BPJ最反直覺的特點是其信息效率。每次查詢,攻擊者只能獲得一個二元信號:這條提示是否被標記為有害。看似微不足道的1比特信息,在數百甚至數千次查詢的累積下,卻足以「描繪」出分類器決策邊界的精確輪廓。
這一原理與密碼學中的「時序攻擊」(timing attack)有異曲同工之妙——即使每次觀察只獲得極少量信息,但足夠多的觀察累積起來就能揭示系統的內部運作方式。
Anthropic的回應:Constitutional Classifiers++
面對BPJ的挑戰,Anthropic展現了積極的應對態度。公司迅速推出了升級版防禦系統——Constitutional Classifiers++,引入了新的防禦架構:
- 探測架構(Probe Architecture):新增的探測機制能夠檢測分類器邊界是否正在被系統性地探索,而不僅僅判斷單個提示是否有害
- 升級機制(Escalation Architecture):當系統檢測到可疑的邊界探索行為時,自動升級安全審查級別,啟用更嚴格的過濾標準
這種「探測+升級」的雙層架構代表了AI安全防禦思維的重要轉變:從靜態的單次判斷,走向動態的行為模式分析。
深層啟示:單次互動防禦的局限性
BPJ研究最深遠的影響可能在於其對AI安全範式的根本質疑。當前主流的AI安全防護策略主要基於「單次互動」(single-interaction)防禦——即獨立地評估每一條用戶輸入,判斷其是否安全。然而,BPJ表明,攻擊者可以通過一系列表面無害的互動,累積足夠的信息來繞過防禦。
批量監控的必要性
研究者建議,未來的AI安全系統需要從「單次互動防禦」轉向「批量級監控」(batch-level monitoring)。具體而言:
從單點防禦到系統監控
- 行為模式分析:監控用戶在一段時間內的查詢模式,識別可疑的邊界探索行為
- 異常檢測:檢測查詢序列中是否存在系統性的梯度逼近模式
- 速率限制:對可疑的高頻查詢實施更嚴格的速率限制
- 上下文關聯:將多次互動的上下文關聯起來進行整體風險評估
AI安全的「攻防螺旋」
BPJ的出現再次印證了AI安全領域的一個核心現實:安全防禦與攻擊之間存在永恆的「攻防螺旋」。每一次防禦的加強都會激發更精妙的攻擊方法,而每一次攻擊的突破又推動防禦的進一步升級。
這一動態與網絡安全領域的歷史高度相似。正如防火牆、入侵檢測系統和端點防護在數十年的攻防中不斷演進一樣,AI安全防護也必將經歷類似的迭代過程。關鍵在於確保防禦方始終能夠及時響應新出現的攻擊手段。
英國AISI的角色
值得注意的是,這項研究出自英國AI安全研究所(AISI)——一個由政府支持的獨立研究機構。AISI的定位是在AI安全領域扮演「善意攻擊者」的角色:通過主動發現漏洞並負責任地披露,幫助AI公司改進其安全系統。
BPJ的發現和Anthropic的快速回應,展示了這種「善意攻防」合作模式的價值。與其讓惡意攻擊者在暗處發現漏洞並加以利用,不如由受信任的研究機構先行發現並推動修復。
對AI開發者和企業的建議
BPJ研究對正在部署AI系統的企業和開發者提出了明確的警示:
- 不要依賴單層防禦:任何單一的安全機制都可能被繞過,需要多層防禦體系
- 實施行為監控:監控API使用模式,識別可疑的系統性探索行為
- 保持安全更新:及時應用AI提供商發布的安全升級
- 建立應急響應:制定AI安全事件的應急處理流程
- 關注學術進展:持續追蹤AI安全研究的最新發展
結語:安全是一場馬拉松
邊界點越獄的發現提醒我們,AI安全永遠不是一個可以「解決」的問題,而是一個需要持續投入和迭代的過程。隨著AI系統在社會中的應用日益廣泛,確保這些系統的安全性不僅是技術問題,更是關乎公共利益的社會責任。BPJ研究和Anthropic的迅速回應,為這場持久的安全馬拉松提供了有價值的經驗和教訓。