李飛飛:從ImageNet到World Labs

李飛飛是全球最具影響力的AI研究者之一。她在2009年主導創建的ImageNet數據集和挑戰賽,被廣泛認為是引爆深度學習革命的關鍵催化劑。2012年AlexNet在ImageNet挑戰賽上的突破性勝利,開啟了當代AI的黃金時代。從Google Cloud首席科學家到史丹佛以人為本AI研究所(HAI)共同主任,李飛飛在學術界和產業界都留下了深遠的印記。

World Labs是李飛飛的創業首秀。她創立這家公司的核心理念是:當前的AI——無論是大型語言模型還是影像生成模型——本質上都只理解「平面」資訊(文字序列或2D像素),而不理解我們生活的3D物理世界。要讓AI真正有用(尤其是在機器人、自動駕駛、AR/VR等領域),它必須具備「空間智能」——理解3D空間結構、物理定律、因果關係的能力。

World Labs融資與發展概況

  • 最新融資:10億美元(2月14-20日當週最大AI交易)
  • 累計融資:超過15億美元
  • 創辦人:李飛飛(Fei-Fei Li),史丹佛大學教授
  • 首款產品:Marble——商業世界模型
  • 核心技術:空間智能(Spatial Intelligence)
  • 應用領域:機器人、AR/VR、自動駕駛、模擬、遊戲
  • 主要競爭對手:AMI Labs(LeCun,50億美元)、Thinking Machines Lab(20億估值)

Marble:第一個商業世界模型

World Labs推出的Marble是公司第一款面向商業市場的世界模型(world model)。世界模型不同於語言模型或影像模型——它不是生成文字或圖片,而是構建一個3D世界的內部表示,模擬物理定律下物體的運動、互動和變化。

具體來說,Marble能夠接收2D影像或3D場景數據作為輸入,自動構建一個三維空間的數位孿生(digital twin),然後在這個虛擬空間中模擬物理互動。例如:給Marble一張房間的照片,它能推斷出房間的3D結構、物體的位置和大小、光線的方向,甚至預測如果推動桌上的杯子會發生什麼。

空間智能的技術內涵

空間智能(Spatial Intelligence)是World Labs定義的核心技術概念,它包含幾個關鍵能力層面。第一是3D場景理解:從有限的2D輸入(照片、視頻)推斷完整的3D空間結構。第二是物理模擬:理解重力、碰撞、摩擦力等基本物理定律,並據此預測物體的運動軌跡。第三是因果推理:不僅知道「什麼在哪裡」,還理解「為什麼在那裡」以及「如果改變什麼會發生什麼」。第四是持久性記憶:維護一個不斷更新的3D世界模型,而不是每次都從頭開始理解場景。

這些能力的結合使Marble在機器人控制、AR/VR內容生成、自動駕駛模擬等領域有著廣泛的應用潛力。一個理解3D物理世界的AI模型,本質上就是機器人的「大腦」——它讓機器人不僅能「看到」周圍環境,更能「理解」環境的空間結構和物理規則。

2026年世界模型競賽全面爆發

World Labs並非唯一押注世界模型的公司。2026年初,這一賽道已經進入了白熱化的全面競賽階段,三個重量級玩家同時發力。

Yann LeCun離開Meta創立AMI Labs

圖靈獎得主、前Meta首席AI科學家Yann LeCun離開Meta創立了AMI Labs(Advanced Machine Intelligence Labs),獲得了高達50億美元的天價融資。LeCun多年來一直主張,大型語言模型(LLM)是通往通用人工智能(AGI)的「死胡同」,真正的突破必須來自世界模型——能夠像人類嬰兒一樣通過觀察和互動來學習物理世界的AI系統。AMI Labs正是他實踐這一理念的載體。

Google DeepMind推出Genie 3

Google DeepMind也沒有缺席。其推出的Genie 3是一個能夠從影像和視頻中自動生成可互動3D環境的世界模型。與World Labs的Marble和AMI Labs的方案不同,Genie 3更側重於「生成式」——它不僅理解3D世界,還能創造全新的3D世界,這在遊戲、虛擬製作和教育模擬等領域有著巨大的商業潛力。

2026年世界模型競賽格局

  • World Labs(Marble):李飛飛創立,累計融資超15億美元,聚焦空間智能
  • AMI Labs:LeCun創立,50億美元融資,追求超越LLM的世界模型路徑
  • Google DeepMind(Genie 3):生成式世界模型,可創建互動3D環境
  • Thinking Machines Lab:估值20億美元,另一重要競爭者
  • 共同目標:讓AI理解和模擬3D物理世界

為什麼世界模型是下一個前沿?

要理解世界模型為何在2026年突然成為AI產業最熱門的賽道,需要回到一個根本性的問題:當前AI的核心局限是什麼?

大型語言模型的能力令人驚嘆,但它們本質上只處理符號(token)——文字的片段。它們可以流暢地討論物理學,但無法真正「理解」一個球從桌上滾落時會發生什麼。它們可以生成詳細的機器人操作指令,但無法根據即時的3D環境變化做出自適應調整。這種「知道但不理解」的差距,正是世界模型要填補的。

應用場景的爆發

世界模型的應用場景正在多個領域同時爆發。在機器人領域,具備空間智能的AI可以讓機器人在未見過的環境中自主導航和操作,而不需要為每個場景預先編程。在AR/VR領域,世界模型能夠即時理解用戶的物理環境,將虛擬物體自然地融入真實空間。在自動駕駛領域,世界模型可以模擬各種交通場景,為自動駕駛系統提供更豐富、更真實的訓練數據。在模擬和數位孿生領域,世界模型能夠創建工廠、城市、建築等複雜系統的精確數位副本,用於規劃和優化。

Apple Vision Pro、Meta Quest等頭戴式裝置的普及也在推動空間智能的需求。這些裝置需要AI即時理解用戶所在的物理空間,才能實現自然的混合實境體驗。而在2026年全球人形機器人市場急速擴張的背景下(多家中國和美國公司競相推出量產型人形機器人),對能夠理解和操作3D物理環境的AI模型的需求更是前所未有。

World Labs的挑戰與前景

儘管融資超過15億美元、擁有李飛飛的金字招牌,World Labs面臨的挑戰依然嚴峻。首先是技術難度——構建真正理解物理世界的AI模型,比訓練語言模型要困難得多,因為物理世界的複雜度遠超文本語言。其次是商業化路徑——世界模型目前尚未有明確的大規模商業應用案例,Marble需要在機器人、AR/VR或模擬等領域找到殺手級應用。

競爭壓力同樣不可忽視。AMI Labs擁有比World Labs更多的資金(50億 vs 15億),且LeCun在世界模型研究上的理論積累更為深厚。Google DeepMind則坐擁海量的運算資源和多模態數據。Thinking Machines Lab等新興競爭者也在快速成長,估值已達20億美元。

然而,World Labs的獨特優勢在於李飛飛多年來在電腦視覺和視覺智能領域積累的深厚根基。從ImageNet到空間智能,她的研究軌跡始終圍繞著「讓機器像人一樣理解視覺世界」這一主題。如果說LLM時代的核心突破是讓AI理解語言,那麼世界模型時代的核心突破將是讓AI理解空間——而這正是李飛飛畢生研究的方向。在2026年的世界模型競賽中,World Labs能否將這一學術優勢轉化為商業成功,值得持續關注。