NVIDIA DreamDojo：用44,000小時人類影片訓練的機器人世界模型

什麼是DreamDojo？

DreamDojo是NVIDIA聯合UC Berkeley、Stanford、德克薩斯大學奧斯汀分校等多家頂尖學術機構開發的基礎世界模型。它的核心創新在於：讓機器人通過觀察人類如何與物理世界交互來學習，然後將這些知識遷移到具體的機器人硬件上。

論文（arXiv:2602.06949）由NVIDIA的Linxi「Jim」Fan、Joel Jang和Yuke Zhu領導，描述了一種兩階段學習方法：首先，AI通過研究人類行為來建立對物理和物體交互的基礎理解；然後，這些知識被微調以適應特定的機器人硬件，使機器能夠將觀察到的東西轉化為實際動作。

                    DreamDojo訓練數據規模
                    影片時長：44,000小時多樣化人類影片
技能數量：涵蓋近100種不同技能
場景數量：數千個不同場景
與前代對比：時長為此前最大數據集的15倍，技能為96倍，場景為2,000倍

                

解決數據稀缺的根本問題

機器人學習面臨的最大瓶頸之一是訓練數據的稀缺。收集機器人操作數據既昂貴又耗時——你需要真實的機器人、真實的環境和大量的人工監督。DreamDojo巧妙地繞過了這個問題，利用現有的人類影片——這些數據已經大量存在於互聯網上——作為訓練來源。

DreamDojo的訓練數據集DreamDojo-HV，在規模和多樣性上都達到了前所未有的水平：44,000小時的影片，涵蓋數千個場景和近100種不同技能。這比此前用於世界模型訓練的最大數據集大了15倍。

技術架構與性能

在經過少量目標機器人數據的微調後，DreamDojo展現了對物理規律的深刻理解和精確的動作可控性。研究團隊開發了一條蒸餾管線，將DreamDojo加速到10.81 FPS的實時速度，同時進一步提高了上下文一致性。

DreamDojo已經能夠為GR-1、G1、AgiBot和YAM等多種機器人平台生成逼真的動作條件推演，覆蓋廣泛的環境和物體交互場景。這意味着一個模型可以適配多種不同的機器人硬件——這是通用機器人智能的關鍵一步。

三大核心應用

DreamDojo支持基於生成世界模型的三大核心應用：

實時遙操作：操作人員可以在虛擬環境中控制機器人，DreamDojo提供物理精確的模擬反饋
策略評估：企業可以在虛擬環境中評估機器人的行為表現，然後再將其部署到真實世界——降低風險、提高可靠性
基於模型的規劃：機器人可以在「想像」中預演不同的行動方案，選擇最優策略

NVIDIA的物理AI全景圖

DreamDojo是NVIDIA更廣泛的物理AI戰略的一部分。在CES 2026上，NVIDIA發布了一整套機器人基礎模型、模擬工具和邊緣硬件，包括Isaac GR00T N1.6——一個專為人形機器人設計的開放推理視覺語言動作模型。

NVIDIA還與Hugging Face合作，將開源Isaac和GR00T技術整合到LeRobot框架中，連接NVIDIA的200萬機器人開發者與Hugging Face的1300萬AI開發者。正如黃仁勳所言：「物理AI的突破——理解真實世界、推理和規劃行動的模型——正在解鎖全新的應用。」

2025年，機器人初創企業融資達到創紀錄的265億美元。DreamDojo代表了將這些投資轉化為實際機器人能力的關鍵技術基礎設施——從純粹的硬件問題，到硬件與AI深度融合的物理智能。