什麼是DreamDojo?

DreamDojo是NVIDIA聯合UC Berkeley、Stanford、德克薩斯大學奧斯汀分校等多家頂尖學術機構開發的基礎世界模型。它的核心創新在於:讓機器人通過觀察人類如何與物理世界交互來學習,然後將這些知識遷移到具體的機器人硬件上。

論文(arXiv:2602.06949)由NVIDIA的Linxi「Jim」Fan、Joel Jang和Yuke Zhu領導,描述了一種兩階段學習方法:首先,AI通過研究人類行為來建立對物理和物體交互的基礎理解;然後,這些知識被微調以適應特定的機器人硬件,使機器能夠將觀察到的東西轉化為實際動作。

DreamDojo訓練數據規模

  • 影片時長:44,000小時多樣化人類影片
  • 技能數量:涵蓋近100種不同技能
  • 場景數量:數千個不同場景
  • 與前代對比:時長為此前最大數據集的15倍,技能為96倍,場景為2,000倍

解決數據稀缺的根本問題

機器人學習面臨的最大瓶頸之一是訓練數據的稀缺。收集機器人操作數據既昂貴又耗時——你需要真實的機器人、真實的環境和大量的人工監督。DreamDojo巧妙地繞過了這個問題,利用現有的人類影片——這些數據已經大量存在於互聯網上——作為訓練來源。

DreamDojo的訓練數據集DreamDojo-HV,在規模和多樣性上都達到了前所未有的水平:44,000小時的影片,涵蓋數千個場景和近100種不同技能。這比此前用於世界模型訓練的最大數據集大了15倍。

技術架構與性能

在經過少量目標機器人數據的微調後,DreamDojo展現了對物理規律的深刻理解和精確的動作可控性。研究團隊開發了一條蒸餾管線,將DreamDojo加速到10.81 FPS的實時速度,同時進一步提高了上下文一致性。

DreamDojo已經能夠為GR-1、G1、AgiBot和YAM等多種機器人平台生成逼真的動作條件推演,覆蓋廣泛的環境和物體交互場景。這意味着一個模型可以適配多種不同的機器人硬件——這是通用機器人智能的關鍵一步。

三大核心應用

DreamDojo支持基於生成世界模型的三大核心應用:

  • 實時遙操作:操作人員可以在虛擬環境中控制機器人,DreamDojo提供物理精確的模擬反饋
  • 策略評估:企業可以在虛擬環境中評估機器人的行為表現,然後再將其部署到真實世界——降低風險、提高可靠性
  • 基於模型的規劃:機器人可以在「想像」中預演不同的行動方案,選擇最優策略

NVIDIA的物理AI全景圖

DreamDojo是NVIDIA更廣泛的物理AI戰略的一部分。在CES 2026上,NVIDIA發布了一整套機器人基礎模型、模擬工具和邊緣硬件,包括Isaac GR00T N1.6——一個專為人形機器人設計的開放推理視覺語言動作模型。

NVIDIA還與Hugging Face合作,將開源Isaac和GR00T技術整合到LeRobot框架中,連接NVIDIA的200萬機器人開發者與Hugging Face的1300萬AI開發者。正如黃仁勳所言:「物理AI的突破——理解真實世界、推理和規劃行動的模型——正在解鎖全新的應用。」

2025年,機器人初創企業融資達到創紀錄的265億美元。DreamDojo代表了將這些投資轉化為實際機器人能力的關鍵技術基礎設施——從純粹的硬件問題,到硬件與AI深度融合的物理智能。