跑酷:運動智慧的終極考驗
為什麼選擇跑酷(parkour)作為人形機器人的研究場景?因為跑酷可能是對雙足移動能力的最極端測試。它要求機器人在高速運動中即時感知環境、選擇最優動作、精確控制身體姿態,同時應對各種未預見的障礙和地形變化。能做跑酷的機器人,幾乎能應對真實世界中的任何移動挑戰——從災難救援中的廢墟穿越,到工業環境中的複雜地形導航。
此前,四足機器人(如Boston Dynamics的Spot和MIT的Mini Cheetah)已展示過跑酷能力,但人形(雙足)機器人的跑酷一直是一個未解難題。雙足行走本身就是一個複雜的動態平衡問題,在此基礎上加入跳躍、攀爬、翻越等高動態動作,難度呈指數級上升。PHP框架的突破,標誌著人形機器人運動控制進入了全新的階段。
PHP框架核心性能指標
- 攀牆高度:1.25米(機器人身高的96%)
- 貓跳速度:3.41 m/s(約12.3 km/h)
- 障礙賽完成時間:60秒
- 實驗平台:Unitree G1人形機器人(身高約1.3米)
- 訓練環境數量:16,384個並行模擬環境
- 遷移方式:零樣本sim-to-real(無需真實世界微調)
研究團隊:AI與機器人頂尖力量的集結
這篇論文(arXiv:2602.15827,題為「Perceptive Humanoid Parkour」)的研究團隊匯集了美國AI和機器人領域的頂尖力量。Amazon Frontier AI & Robotics是Amazon的前沿機器人研究部門,專注於具身智慧(embodied intelligence)和自主系統;UC Berkeley的BAIR Lab是強化學習和機器人控制的全球領先實驗室;Stanford的IRIS Lab在人形機器人全身控制方面擁有深厚積累;CMU的Robotics Institute則是世界歷史最悠久的機器人研究機構。
這種跨機構合作在機器人研究中越來越常見——單一實驗室很難同時具備演算法設計、硬體整合和大規模模擬訓練的全部能力。Amazon提供的算力資源和工程支持,加上三所頂尖大學的研究實力,使得PHP框架能夠在理論和實踐兩個層面都取得突破。
技術架構:動作匹配與強化學習的融合
PHP框架的技術架構包含三個核心組件,巧妙地融合了基於物理的動作匹配(motion matching)和深度強化學習(deep reinforcement learning)。
第一層:動作匹配參考庫
框架的基礎是一個經過精心構建的跑酷動作參考庫。研究團隊並未使用人類跑酷運動員的動作捕捉數據(因為人類的體型和關節結構與Unitree G1存在顯著差異),而是透過基於物理模擬的軌跡優化方法,為G1的具體體型和關節限制生成了一系列物理上可行的跑酷動作原型。這些動作包括:高速衝刺、跳躍、攀牆、貓跳(cat-vault,即雙手撐牆後身體飛越)、翻滾著地等。
第二層:多技能強化學習策略
在動作參考庫之上,研究團隊訓練了一個統一的多技能強化學習策略(multi-skill policy)。與傳統方法中為每個動作訓練獨立策略不同,PHP使用單一神經網絡來處理所有跑酷技能。策略根據當前的環境感知(深度攝影機數據)和機器人狀態,在不同技能之間動態切換,實現流暢的技能銜接。
訓練在16,384個並行模擬環境中進行——這一規模之大令人印象深刻。每個環境都包含隨機生成的障礙配置,迫使策略學習泛化能力,而非記憶特定場景。獎勵函數的設計也頗為精巧:除了任務完成度(如成功越過障礙)外,還包括能量效率、動作平滑度和關節力矩限制等項,確保學到的動作既高效又在硬體安全範圍內。
PHP技術架構三層設計
- 第一層(動作匹配):基於物理模擬的跑酷動作原型庫,針對G1體型優化
- 第二層(強化學習):16,384環境並行訓練的統一多技能策略
- 第三層(深度感知):基於深度攝影機的即時環境感知與障礙物分類
- 整合關鍵:閉環自適應,可在跑步中動態應對障礙物擾動
第三層:深度感知的學生策略
PHP框架最具創新性的部分是其「深度感知多技能學生策略」(depth-based multi-skill student policy)。在模擬訓練中,「教師策略」可以獲取環境的完整狀態資訊(包括所有障礙物的精確位置和尺寸)。但在真實世界中,機器人只能透過深度攝影機獲取不完美的環境資訊。
學生策略的任務就是學會僅憑深度攝影機的輸入,就能複現教師策略的行為。透過一種稱為「特權資訊蒸餾」(privileged information distillation)的技術,學生策略從教師策略中學習,同時逐步適應僅有深度感知的限制。這種設計使得策略能夠在零樣本(zero-shot)條件下直接從模擬遷移到真實世界,無需任何真實環境的額外訓練。
實驗成果:突破性的運動表現
PHP框架在Unitree G1機器人上的實驗結果令人驚嘆。在攀牆測試中,G1成功攀上了1.25米高的垂直牆面——這相當於其身高的96%。機器人首先以全速衝向牆面,在接觸牆面的瞬間利用雙手抓住牆頂邊緣,然後藉助動量將身體拉升並翻越。整個動作流暢連貫,成功率超過85%。
貓跳(cat-vault)測試中,G1以3.41 m/s(約12.3 km/h)的速度飛身越過腰高障礙物,雙手撐在障礙物頂部,身體在空中完成弧線運動後平穩著地。在綜合障礙賽中,G1在60秒內連續完成了跳躍、攀爬、翻越等多種動作的組合。
閉環自適應:應對意外擾動
PHP框架最令研究者興奮的特性是其閉環自適應能力。在測試中,研究團隊在機器人跑酷過程中故意移動障礙物的位置,模擬真實世界中的不確定性。令人驚訝的是,G1能夠在高速運動中即時感知障礙物位置的變化,並動態調整自己的動作策略。例如,當一面牆在機器人接近時被突然後移30厘米,G1能夠在空中調整躍起角度和手臂伸展距離,仍然成功完成攀越。
這種閉環自適應能力對真實世界的應用至關重要。現實環境永遠不會像模擬環境那樣可預測——地面可能濕滑、障礙物可能移動、風力可能改變軌跡。一個無法應對這些擾動的跑酷機器人,充其量只是一個精美的演示品。PHP的閉環自適應證明了其策略具有真正的魯棒性。
與現有研究的性能對比
- 攀牆高度:1.25m(PHP)vs 0.6m(此前最佳人形機器人紀錄)
- 最高移動速度:3.41 m/s vs 2.1 m/s(此前最佳)
- 技能數量:統一策略覆蓋6+種跑酷技能(此前通常為單一技能)
- sim-to-real遷移:零樣本成功(此前通常需真實世界微調)
- 障礙物擾動適應:閉環即時調整(此前為開環執行為主)
從跑酷到產業應用:具身智慧的突破路徑
跑酷機器人的研究價值不僅在於跑酷本身。PHP框架展示的核心能力——高動態運動控制、即時環境感知、多技能動態切換、閉環自適應——正是工業和服務機器人在複雜環境中作業所需的基礎能力。
對Amazon而言,具身智慧是其長期策略的核心組成部分。從倉庫自動化到最後一公里配送,Amazon需要能夠在非結構化環境中自主導航和操作的機器人。一個能在複雜地形中跑酷的機器人,自然也能在凌亂的倉庫中靈活穿梭、在台階和斜坡上平穩行走、在意外障礙前快速反應。
Unitree G1的平台價值
選擇Unitree G1作為實驗平台也頗具策略意義。G1是中國宇樹科技(Unitree Robotics)推出的消費級人形機器人,售價約為大型人形機器人(如Boston Dynamics Atlas)的十分之一。在一個低成本平台上實現高難度跑酷,意味著這些技術有可能在不久的將來被廣泛部署在價格可負擔的機器人上,而非僅限於實驗室中的百萬美元原型機。
技術局限與未來挑戰
儘管成果令人矚目,PHP框架目前仍存在若干局限。首先,所有測試都在相對可控的室內環境中進行,真實世界的地形複雜度、光照變化和天氣條件可能對深度感知系統造成更大挑戰。其次,Unitree G1的電池續航在高動態運動模式下僅約20-30分鐘,限制了實際應用的持續時間。第三,機器人在跑酷過程中的關節磨損和結構應力遠高於正常行走,長期可靠性仍需大量測試驗證。
研究團隊也坦承,目前的系統在某些極端場景下仍會失敗——例如非常窄的平衡木、光滑的金屬表面、或需要精確抓握的攀爬場景。這些局限為後續研究指明了方向:整合觸覺感知、增強手部操作能力、以及開發更魯棒的視覺感知模型。
展望:人形機器人運動能力的新基準
PHP框架的發表,為人形機器人的運動控制研究樹立了新的基準。攀越96%身高的牆壁、3.41 m/s的跑酷速度、零樣本sim-to-real遷移——這些數字不僅是學術突破,更是向產業界發出的信號:人形機器人的運動能力正在接近(在某些維度上甚至超越)人類水準。
當然,從實驗室演示到大規模產業部署仍有漫長的距離。硬體耐久性、能源效率、安全機制、成本控制等工程挑戰仍待解決。但PHP框架證明了一個關鍵論點:透過動作匹配、強化學習和深度感知的有機融合,再加上大規模並行模擬訓練的算力支持,人形機器人可以掌握此前被認為只有人類和動物才能完成的高動態運動技能。
更重要的是,PHP的研究方法論具有廣泛的可遷移性。同樣的框架——動作參考庫加上多技能強化學習加上深度感知學生策略——可以應用於其他高動態任務,如災難搜救、建築施工、甚至太空探索中的非結構化環境導航。這不僅是機器人學的里程碑,更是具身智慧走向真實世界的重要一步。