3家巨頭
OpenAI、xAI、Anthropic同月爆發安全人才出走
6/12
xAI原始創辦人已離開半數
7人團隊
OpenAI使命對齊團隊遭全員解散
刪除「safely」
OpenAI從使命聲明中移除安全承諾

一場預謀已久的集體出走:2026年2月的歷史性時刻

如果你問任何一位從事AI安全研究的學者,2026年2月在他們的職業生涯中意味著什麼,你可能會聽到一個統一的答案:那是希望死去的月份。在短短不到三週的時間裡,全球三大最重要的AI實驗室——OpenAI、xAI和Anthropic——幾乎同步爆發了安全研究人員的大規模離職潮。這不是巧合,不是個別事件的偶然時間重疊,而是一個醞釀了數年之久的結構性危機的集中爆發。

這些離開的人,不是普通的工程師或產品經理。他們是被各自公司招募來專門研究如何讓AI系統保持安全的人——那些被賦予了「守門人」角色的頂尖研究者。當守門人集體放棄了他們的崗位,門後的東西就失去了最後一道防線。要理解這場出走的全貌和深層含義,我們需要逐一審視三家公司各自發生了什麼,以及這些事件之間存在的結構性關聯。

OpenAI:從「安全地造福全人類」到刪除「safely」

OpenAI的危機是這場出走潮中最具象徵意義的,因為它發生在這家曾經將AI安全視為創辦理由的公司身上。2015年,OpenAI以非營利研究機構的身份誕生,其使命聲明中明確寫著要「safely」(安全地)開發通用人工智能以造福全人類。十一年後的2026年2月,這個詞被悄悄地從使命聲明中移除了。沒有公告,沒有解釋,沒有CEO的部落格文章——只是安靜地消失了,彷彿它從未存在過。

這一改動被外部觀察者發現後,迅速成為OpenAI安全承諾崩塌的最具說服力的象徵。一個詞的刪除,看似微不足道,但對於一家長期以「安全」作為品牌核心的公司而言,它的意義堪比一座教堂拆除了十字架。使命聲明不是營銷文案——它是一家機構向世界做出的根本性承諾。當你從自己的根本性承諾中刪除了「安全」二字,你就是在告訴所有人:安全已不再是我們的優先事項。

這一改動發生的時間,與OpenAI內部一系列更具實質性的安全架構拆解行動完全吻合。2024年9月,OpenAI在Ilya Sutskever和Jan Leike等前安全團隊核心成員離職後的輿論壓力下,成立了一個七人的「使命對齊團隊」(Mission Alignment Team),專門負責確保公司的產品開發方向與其宣稱的使命保持一致。這個團隊被視為OpenAI在安全議題上的一次「亡羊補牢」——一個遲來但仍然有意義的制度性回應。然而,到了2026年2月,這個團隊被悄然解散了。七位研究員,七個崗位,全部取消。沒有公開的解散聲明,沒有對團隊工作成果的總結或致謝——他們的存在和消亡,都在公眾視線之外完成。

Zoe Hitzig的公開決裂:從內部批評到《紐約時報》宣言

在使命對齊團隊被解散的同一時期,OpenAI的資深研究員Zoe Hitzig選擇了一種更為公開和戲劇性的方式結束她與這家公司的關係。2月12日,Hitzig在《紐約時報》發表了一篇長篇專欄文章,宣布辭職,並詳細闡述了她對OpenAI發展方向的「深刻保留意見」(deep reservations)。

Hitzig的文章並非泛泛的道德批評,而是針對OpenAI具體商業決策的精確控訴。她的核心關切集中在OpenAI的廣告策略上。ChatGPT在全球擁有數億用戶,Hitzig警告說,當這樣一個系統開始被用作廣告投放平台時,其潛在的用戶操控風險是前所未有的。與傳統的搜索廣告或社交媒體廣告不同,AI聊天機器人與用戶之間存在一種模擬信任關係——用戶傾向於將AI助手的回答視為客觀的、為自己利益服務的建議,而非廣告驅動的推薦。在這種信任關係中插入商業廣告,等同於系統性地利用用戶的信任來謀取廣告收入。

「當一個被數億人當作可信顧問的AI系統開始優化廣告收入而非用戶福祉時,我們所面對的不再只是一個商業倫理問題,而是一場大規模的認知操控實驗。我對此有深刻的保留意見,而我的保留意見在公司內部已經沒有被傾聽的空間。」

—— Zoe Hitzig,前OpenAI研究員,《紐約時報》專欄

Hitzig選擇《紐約時報》作為她辭職宣言的發表平台,這一選擇本身就是一個聲明。她不是在LinkedIn上發一篇含蓄的感謝文,也不是在Twitter上發一條模糊的暗示——她選擇了美國最具影響力的新聞媒體,以一篇精心撰寫的長文形式,將她的批評永久地記錄在公共記錄中。這種公開決裂的方式,在矽谷的企業文化中極為罕見,也反映了她對問題嚴重性的判斷:這已經不是可以通過內部管道解決的分歧,而是需要公眾知情權介入的重大公共利益問題。

Ryan Beiermeister事件:安全高管因反對色情功能被解僱

如果說Hitzig的離職是一場公開的原則性抗議,那麼Ryan Beiermeister的遭遇則揭示了OpenAI安全文化崩塌的更為黑暗的一面。據多家媒體報導,Beiermeister是OpenAI內部職級最高的安全主管之一,他被解僱的原因是反對公司推出所謂的「成人模式」(adult mode)——一項將允許ChatGPT生成色情內容的功能。

這一事件的衝擊力在於其邏輯的荒謬性。一家自稱致力於安全AI發展的公司,解僱了一位因執行安全標準而反對有爭議功能的高級安全主管。翻譯成最直白的語言就是:安全負責人因為做了安全該做的事情而被解僱。這不是一個關於色情內容本身的倫理爭論——不同的人對成人內容有不同的價值判斷。真正令人警醒的是制度性信號:當安全部門的負責人因為履行職責而被懲罰時,整個安全機制就已經從內部被掏空了。此後還有誰敢在OpenAI內部對任何產品決策提出安全方面的異議?

Beiermeister事件與使命對齊團隊的解散、使命聲明中「safely」一詞的刪除,形成了一個完整的敘事弧線:OpenAI的安全承諾不是在某一個瞬間崩塌的,而是經歷了一個系統性的、漸進式的拆解過程。先是理念層面的退讓(刪除使命中的安全承諾),然後是組織層面的拆除(解散對齊團隊),最後是人事層面的清洗(解僱反對不安全功能的高管)。每一步都比前一步更進一步,每一步都在測試外界和內部員工的容忍底線。

OpenAI安全架構的系統性拆解時間線

  • 使命聲明修改:從使命中悄然刪除「safely」一詞,移除最根本的安全承諾
  • 團隊解散:2024年9月成立的七人使命對齊團隊被全員解散,安全制度化努力歸零
  • 高管解僱:頂級安全高管Ryan Beiermeister因反對「成人模式」色情功能被解僱
  • 公開辭職:Zoe Hitzig以《紐約時報》專欄形式公開辭職,批評廣告策略的用戶操控風險

xAI的創辦人出走潮:當「適合度」成為委婉的代名詞

與OpenAI的故事平行展開的,是Elon Musk旗下xAI的另一場人才流失危機。2月9日,xAI聯合創辦人兼推理研究負責人Yuhuai(Tony)Wu宣布辭職。僅僅一天後,2月10日,另一位聯合創辦人、研究與安全負責人Jimmy Ba也宣布離開。Ba在社交媒體上留下了一句意味深長的話:「2026 is gonna be insane」(2026年將會是瘋狂的)。

這兩位創辦人的離開,使得xAI原始十二位創辦人中已有六位——整整一半——離開了這家公司。這是一個令人震驚的流失率。在科技公司的歷史上,創辦團隊的高流動性並非罕見,但在公司成立僅約兩年半的時間內失去一半創辦人,這個速度和規模都極不尋常。更值得注意的是離開者的身份和角色:Wu負責的是推理(reasoning)研究——這是當前AI能力競賽中最核心的技術方向之一;Ba同時負責研究和安全——後者在xAI的公眾敘事中本就佔據著微妙的位置。

面對外界對這一離職潮的質疑,Elon Musk的回應是將其歸結為「適合度」(fit)問題。這個詞在矽谷的人事話語中有著特定的含義:它通常被用來描述那些技術能力沒有問題、但在文化或價值觀上與公司方向不一致的離職情況。Musk沒有說這些創辦人的能力不足,沒有說他們的研究不好——他說的是他們「不適合」。這個「適合」的標準是什麼?結合xAI近期的爭議事件來看,答案可能令人不安。

xAI的旗艦產品Grok近期接連爆發了多起嚴重的安全事故。該系統被發現能夠生成非自願的色情圖像——即未經本人同意的、使用真人面孔的色情內容。此外,Grok還被曝出生成反猶太主義內容的問題。這些事件引發了廣泛的公眾批評和監管關注。在這一背景下,那些負責安全和研究倫理的創辦人選擇離開,「不適合」的含義就變得不言自明了:在一個越來越不重視安全護欄的環境中,那些堅持安全底線的人被認為「不適合」——不是因為他們做錯了什麼,而是因為他們堅持做對的事情。

Jimmy Ba的「瘋狂」預言與xAI的安全真空

Jimmy Ba離開時說的「2026 is gonna be insane」,在表面上可以被解讀為對AI技術發展速度的興奮感嘆。但結合他作為xAI安全負責人的身份和他選擇離開的決定,這句話更可能是一個帶有深刻憂慮的預言:那些了解AI系統內部運作的人,看到了普通公眾尚未意識到的危險正在以令人窒息的速度接近。「瘋狂」不是讚美,是警告。

Ba的離開對xAI的安全態勢產生了直接而實質性的影響。作為研究與安全雙重負責人,他的角色本身就代表了xAI內部為數不多的將技術研究與安全考量整合在一起的制度性連結。他的離開意味著這個連結的斷裂。而在此之前,xAI已經面臨了因Grok安全問題而來的多方面壓力——監管機構的關注、用戶的投訴、以及公眾輿論的強烈反彈。在這樣一個最需要安全專業知識的時刻,安全負責人選擇離開,這本身就是對公司安全文化最有力的否定。

更宏觀地看,xAI創辦人流失率如此之高,反映了一個更深層的問題:Musk對AI開發的「快速行動、打破常規」(move fast and break things)哲學,與嚴肅的安全研究文化之間存在根本性的不相容。安全研究的本質是謹慎、系統性和預防性的——它要求放慢速度、反覆驗證、承認不確定性。這些特質與Musk長期倡導的極速開發文化形成了無法調和的張力。當一家公司的文化從根本上排斥安全思維時,安全人才的流失不是偶然事件,而是必然結果。

Anthropic的裂痕:當「安全至上」公司的安全主管發出末日警告

如果說OpenAI和xAI的安全人才流失在某種程度上是「意料之中」的——這兩家公司近年來在安全問題上的倒退早已有跡可循——那麼Anthropic的情況則更為令人震驚,因為它發生在這個被廣泛視為AI安全領域「最後堡壘」的公司身上。

2月9日,Anthropic的安全護欄研究主管(Head of Safeguards Research)Mrinank Sharma宣布離職。Sharma不是一個普通的研究員——他領導的團隊負責設計和實施Claude模型中那些防止有害輸出的核心安全機制。他的離職聲明中包含了一句引發廣泛關注的話:「the world is in peril」——世界正處於危險之中。

「世界正處於危險之中。我在這個崗位上所看到的一切讓我確信,我們正在以比任何人準備好的速度更快地接近一個臨界點。我希望我的離開能讓更多人嚴肅對待這個警告。」

—— Mrinank Sharma,前Anthropic安全護欄研究主管

Sharma的離開並非發生在真空之中。就在他辭職前後的時期,Anthropic做出了一項引發安全社群強烈反應的重大政策變更:公司放棄了其長期以來的核心安全承諾——即承諾在確信其AI系統不會造成嚴重傷害之前,不會發布能力越來越強大的系統。這一承諾曾是Anthropic區別於其他AI公司的核心標誌。它不是一個模糊的原則聲明,而是一個具有實際約束力的商業決策框架——它意味著即使競爭對手在技術上領先,Anthropic也不會為了追趕而犧牲安全驗證的嚴謹性。

放棄這一承諾的含義是深遠的。它意味著Anthropic不再自我約束,不再在安全信心與產品發布之間保持一個硬性的門檻。在一個AI能力正在以指數級速度增長的時期,放棄這個門檻就等同於在高速公路上拆除了護欄——你可以開得更快,但一旦出事,後果將是毀滅性的。對於那些因為信任這一承諾而選擇加入Anthropic的安全研究者而言,承諾的撤回無異於雇主單方面撕毀了他們之間的心理契約。Sharma的離開,很可能正是這一心理契約破裂的直接結果。

三條線索的匯聚:產業層面的安全承諾瓦解

將OpenAI、xAI和Anthropic的事件放在一起審視,一個清晰但令人不安的模式浮現了出來:這不是三家公司各自獨立的人事變動,而是整個AI產業安全承諾體系的同步瓦解。

OpenAI從使命聲明中刪除「safely」。xAI在Grok生成非自願色情圖像和反猶太主義內容後,其安全團隊的建制力量被進一步削弱。Anthropic放棄了不在安全得到確認前發布更強大系統的核心承諾。Google在稍早前也已經悄然移除了其AI原則中「不造成傷害」的相關表述。四家全球最重要的AI公司,在一個極短的時間窗口內,幾乎同步地削弱或放棄了各自的安全承諾。這種同步性不是偶然的——它反映了一個共同的驅動力:在AI能力競賽日益白熱化的環境下,安全被視為速度的障礙,而速度是商業生存的前提。

MIT教授Max Tegmark——AI安全研究領域最著名的倡導者之一——對這一現象做出了尖銳的診斷。他指出,AI產業自己製造了這個困境。多年來,產業界一直積極抵制任何具有法律約束力的安全監管。他們的論點是:自律足矣,企業會自願遵守安全標準,政府的強制介入只會扼殺創新。現在,事實已經證明,當商業壓力足夠大時,自律承諾就像寫在沙灘上的字——第一個浪頭就能把它們沖得乾乾淨淨。那些抵制法定安全規範的公司,現在連自己制定的自願規範都不再遵守。

三大AI公司安全承諾的同步瓦解

  • OpenAI:刪除使命中的「safely」、解散對齊團隊、解僱反對色情功能的安全高管
  • xAI:半數創辦人離開、Grok生成非自願色情與仇恨內容、安全負責人辭職
  • Anthropic:放棄核心安全承諾、安全研究主管發出「世界正處於危險之中」警告後辭職
  • Google:悄然移除AI原則中「不造成傷害」的相關承諾

自律的破產:Max Tegmark的警告與監管真空

Max Tegmark對這場危機的診斷值得深入探討,因為它指向了一個比任何單一公司的人事變動都更為根本的結構性問題。AI產業的安全治理,長期以來建立在一個根本性的假設之上:企業的自利動機最終會與公共安全利益保持一致,因為製造不安全的AI產品會損害企業的長期聲譽和商業利益。這個假設在經濟學上被稱為「聲譽機制」——市場會懲罰不負責任的行為者,因此政府不需要強制介入。

2026年2月的事件徹底粉碎了這個假設。聲譽機制之所以失效,是因為AI競賽的動態結構創造了一個經典的「囚徒困境」:如果所有公司都維持安全標準,整個產業都會受益;但如果你的競爭對手放棄了安全約束而你沒有,你就會在速度上落後,失去市場份額,最終失去在這場競賽中的位置。在這種博弈結構下,理性的個體選擇——放棄安全以換取速度——會導致集體性的最壞結果。這正是為什麼多家公司幾乎同時做出了同樣的選擇:它們各自做出了在個體層面上「理性」的決策,但這些決策的集合效果是災難性的。

Tegmark的核心論點是:只有具有法律約束力的安全監管——而非企業自律——才能打破這個囚徒困境。就像環境保護法不是因為企業自願減少污染而制定的,就像金融監管不是因為銀行自願控制風險而建立的,AI安全監管也不能指望企業自願遵守。監管的存在,不是為了懲罰好人,而是為了確保所有競爭者在同一套規則下行動,從而消除那些不顧安全的競爭者的不正當優勢。

然而,當前的現實是:在全球範圍內,AI安全的法定監管幾乎處於真空狀態。歐盟的《AI法案》雖然邁出了重要一步,但其執行機制仍在建設中。美國在特朗普政府的政策方向下,不僅沒有推進AI安全立法,反而在積極拆除已有的安全框架。中國的AI監管體系有其自身的邏輯,但同樣面臨著在國際競爭壓力下放鬆標準的誘惑。全球主要AI大國中,沒有任何一個建立了能夠有效約束企業行為的強制性安全框架。這意味著,在可預見的未來,AI安全的最後一道防線將繼續依賴企業的善意——而2026年2月已經用最殘酷的方式證明了,這道防線有多麼脆弱。

安全人才的行業性信任危機:他們會去哪裡?

一個尚未被充分討論的問題是:這些離開頂尖AI實驗室的安全研究者們,他們會去哪裡?這個問題的答案,對於AI安全研究的未來生態至關重要。

歷史上,AI安全研究的頂尖人才主要集中在幾個渠道:學術界(如MIT、牛津、加州大學伯克利分校等機構的AI安全研究中心)、獨立研究機構(如AI安全中心MIRI、未來人類研究所等)、以及大型AI公司的內部安全團隊。在過去五年中,由於AI公司提供的薪資和計算資源遠超學術界,大量安全研究人才從學術界流向了產業界。這些公司曾承諾,產業界的安全研究將比學術研究更有影響力——因為你可以直接影響產品設計決策,而不只是寫論文。

現在,這個承諾已經被證偽。那些進入產業界的安全研究者發現,他們不僅沒有獲得影響產品決策的真正權力,反而在公司轉向更激進的商業策略時成為了「不方便的聲音」,甚至被直接淘汰。這種被背叛的感覺,可能會導致一場安全人才向學術界和獨立研究機構的回流。然而,學術界是否有足夠的資源和職位來吸收這些人才,是一個現實的問題。AI安全研究需要大量的計算資源和數據訪問權限,而這些資源幾乎完全掌握在大型AI公司手中。離開產業界的安全研究者,可能發現自己陷入了一個兩難困境:要麼回到資源匱乏的學術界,影響力大打折扣;要麼留在產業界,但不得不在良心和飯碗之間做出痛苦的妥協。

這場人才出走還可能產生一種更為陰暗的長期效應:它向年輕一代的AI研究者傳遞了一個明確的訊號——AI安全不是一個有前途的職業方向。當你看到你的前輩們因為堅持安全原則而被解僱、被邊緣化、被迫辭職時,你會選擇走這條路嗎?如果最優秀的年輕人才不再願意進入AI安全領域,那麼未來誰來守護這道防線?這是一個可能需要十年才能充分顯現後果的問題,但它的種子在2026年2月已經種下了。

時代背景:與Anthropic-五角大樓對峙和特朗普禁令的交織

這場安全研究員的集體出走,並非發生在一個政治真空中。它與同一時期正在展開的另外兩場重大事件——Anthropic與五角大樓的軍事合約對峙、以及特朗普政府對Anthropic的全面封殺——形成了一個相互強化的危機網絡。

Anthropic拒絕五角大樓的軍事AI合約,被許多人視為「負責任的AI」理念的最後一次大規模實踐。然而,就在Anthropic做出這一決定的同時,其內部的安全研究主管正在離開,其核心安全承諾正在被放棄。這種矛盾揭示了一個令人不安的現實:即使是最「安全至上」的公司,其安全承諾也在面臨來自多個方向的同時擠壓——來自政府的軍事化壓力、來自市場的商業化壓力、來自競爭對手的速度壓力。在這三重壓力的夾擊下,安全承諾正在從一個堅實的制度性承諾,退化為一個可以根據情境選擇性遵守的彈性原則。

特朗普政府對Anthropic的封殺行動,更是從根本上改變了AI安全的政治經濟學。它傳遞的信號是:堅持安全原則不僅會在市場上付出代價,還會招致國家權力的直接懲罰。在這樣一個環境中,那些仍然留在AI公司內部的安全研究者面臨著一個前所未有的兩難:如果你堅持安全標準,你的公司可能因此被政府封殺,而你也將隨之失業;如果你放棄安全標準,你的專業良知將受到不可逆的損害。這是一個沒有好選項的困境,而正是這種困境的無解性,驅動了2月份的集體出走。

一個產業的道德破產意味著什麼

當我們把所有這些事件連在一起——OpenAI刪除使命中的安全承諾、解散對齊團隊、解僱安全高管;xAI失去半數創辦人、Grok的安全災難;Anthropic放棄核心安全承諾、安全主管的末日警告;Google移除「不造成傷害」的承諾——它們描繪出的畫面不是幾家公司的個別問題,而是一個整體產業的道德破產。

「道德破產」這個詞可能顯得過於嚴厲,但它是準確的。在金融領域,破產意味著一家企業無力償還其債務。在道德領域,破產意味著一個行業無力兌現其對社會做出的基本承諾。AI產業向社會做出的基本承諾是:我們會負責任地開發這些強大的技術,確保它們造福而非傷害人類。2026年2月的事件表明,這個承諾的信用餘額已經被耗盡——不是因為一次性的醜聞,而是因為系統性的、跨公司的、協同一致的安全退卻。

這場道德破產的後果可能需要很多年才會完全顯現。但有幾個近期後果是可以預見的。首先,公眾對AI安全聲明的信任將急劇下降。當每一家主要AI公司都被證明在壓力下放棄了自己的安全承諾時,未來任何公司發布的安全白皮書、負責任AI原則或安全測試報告,都將被以極度懷疑的眼光審視。其次,監管壓力將不可避免地加大——即使在對監管持敵意的政治環境下。產業自律的徹底失敗,為外部強制監管提供了最強有力的論據。第三,國際AI治理的合作基礎將進一步動搖。如果連美國的頂尖AI公司都無法維持基本的安全標準,那些寄希望於國際合作來管控AI風險的努力將失去其現實基礎。

編輯觀點

在這篇報導的寫作過程中,我們反覆回到一個問題:當那些被公司請來專門負責防止災難的人,選擇集體離開這些公司,他們究竟看到了什麼?我們無法完全知道答案,因為他們中的大多數受到保密協議的約束,只能以隱晦的方式表達他們的擔憂。但Mrinank Sharma說的「世界正處於危險之中」,Zoe Hitzig在《紐約時報》上詳細描述的「深刻保留意見」,Jimmy Ba的「2026年將會是瘋狂的」——這些都不是情緒化的誇張,而是具有深厚專業知識的人在權衡利弊後做出的公開表態。他們放棄了高薪職位、放棄了接觸最前沿技術的機會、放棄了影響產品方向的內部權力——他們認為這些代價都比繼續留下來更值得承受。這一事實本身就是最有力的警報。

我們正在目睹一種史無前例的現象:一個產業同時在做兩件完全矛盾的事情——以前所未有的速度開發越來越強大的AI系統,同時以前所未有的速度拆除旨在確保這些系統安全的制度、人員和承諾。這就像一輛正在加速的汽車,司機在踩油門的同時拆掉了剎車裝置。你不需要是工程師也能理解這意味著什麼。

Max Tegmark說得對:產業自己製造了這個困境。多年來,AI公司以「自律優於監管」為由,成功地阻止或延遲了幾乎所有具有約束力的安全立法。現在,連自律都被拋棄了。OpenAI連使命聲明中的「safely」都保不住。xAI的安全團隊在創辦人出走中被掏空。Anthropic連自己最核心的安全承諾都可以被修改。Google連「do no harm」都可以被刪除。那些曾經被用來論證「我們不需要外部監管」的內部安全機制,現在正在以令人目眩的速度被一個接一個地拆除。

對於香港和亞太地區的企業和決策者而言,這場危機傳遞的信息再清楚不過:你不能依賴AI供應商的安全承諾。你不能依賴他們的道德聲明、他們的安全白皮書、他們的負責任AI原則。這些承諾是用沙子砌成的城堡,而2026年2月的浪潮已經證明了它們有多麼不堪一擊。真正的安全保障只能來自三個方面:具有法律約束力的監管框架、獨立的第三方安全審計、以及企業自身的技術主權和風險管理能力。任何缺少這三者的AI部署策略,都是在沙灘上建房子。

這個月的事件讓我們不得不面對一個令人不安但無法迴避的結論:在AI安全的故事中,最可怕的不是那些我們不了解的風險,而是那些了解風險的人正在被系統性地清除出能夠影響決策的位置。門還在,但守門人已經走了。而門後的東西,正在變得越來越強大。