什麼是「模型萃取攻擊」?
模型萃取攻擊(Model Extraction Attack),又稱模型竊取攻擊,是一種新型的知識產權盜竊手段。攻擊者無需直接入侵系統或獲取模型的源代碼,而是通過合法的API介面,向目標AI模型反覆提交精心構造的查詢,然後分析模型的回應模式,從而逐步「蒸餾」出一個功能相似的複製品。
這種攻擊的危險之處在於,它利用的是模型的正常使用管道,因此極難被傳統安全措施偵測到。Google在報告中指出,攻擊者可以在短時間內通過數萬次到十萬次的查詢,有效地提取模型的推理模式和知識結構。
五大AI安全威脅類別
GTIG的報告將當前AI面臨的對抗性威脅分為五大類:
GTIG識別的五大威脅
- 模型萃取攻擊:利用知識蒸餾技術,通過API查詢竊取模型訓練資訊
- AI增強作戰:威脅組織利用AI加速偵察、魚叉式釣魚和社交工程攻擊
- 代理AI武器化:攻擊者開發自主AI代理,用於惡意軟體和工具開發
- AI整合惡意軟體:新型惡意軟體家族(如HONESTCUE)利用AI API生成攻擊代碼
- 地下「越獄」生態系統:如Xanthorox等地下服務,實際依賴被越獄的商業AI API
國家級駭客的AI濫用
報告最引人注目的發現之一,是多個國家級駭客組織正積極利用AI工具來增強其攻擊能力:
- 中國(APT31、Temp.HEX):利用Gemini進行目標側寫和魚叉式釣魚攻擊的內容生成
- 伊朗(APT42):使用AI進行翻譯和社交工程攻擊準備
- 北韓(UNC2970):利用AI輔助漏洞研究和代碼開發
- 俄羅斯:使用AI進行文本翻譯和攻擊工具的故障排除
值得注意的是,Google指出,雖然這些國家級威脅行為者正在積極利用AI,但目前尚未觀察到他們直接對前沿模型發起攻擊。模型萃取攻擊主要來自全球各地的私營實體。
商業風險與企業影響
模型萃取攻擊對AI服務提供商的商業模式構成直接威脅。Google在報告中強調:「模型萃取和後續的知識蒸餾使攻擊者能夠以顯著更低的成本快速加速AI模型開發。」這意味著,一家公司花費數十億美元訓練的模型,可能被競爭對手以極低成本「克隆」。
更嚴重的是,被萃取的模型可能揭示從專有或個人數據中學到的敏感模式,間接暴露商業邏輯、敏感關聯或受監管的資訊。這使得模型安全不僅是知識產權問題,更是數據隱私問題。
Google的反制措施
Google已採取多項措施應對這些威脅:停用與已記錄濫用行為相關的帳戶和基礎設施;在Gemini的分類器中實施針對性防禦,使濫用變得更加困難;同時建議所有提供AI即服務的組織「監控API訪問,留意萃取或蒸餾模式」。
編輯觀點
Google的這份報告揭示了AI安全的一個新維度:AI模型本身已經成為攻擊目標。當我們還在討論AI如何被用來發動網路攻擊時,AI模型本身的知識產權保護已成為迫在眉睫的問題。對於正在投入數十億美元訓練前沿模型的公司而言,如何在開放API服務和保護核心智慧財產之間取得平衡,將是2026年最重要的技術挑戰之一。