VLA 2.0
視覺-語言-行為模型
L4級
消費車輛自動駕駛等級
0
LiDAR與高精地圖依賴
大眾
首家採用中國AD的西方車廠

VLA 2.0:什麼是視覺-語言-行為模型?

要理解VLA 2.0為何被視為自動駕駛的技術分水嶺,首先需要理解其核心架構——Vision-Language-Action(視覺-語言-行為)模型。這不是一個簡單的品牌名稱,而是一種全新的人工智能架構範式,它從根本上重新定義了自動駕駛系統感知、理解和行動的方式。

傳統的自動駕駛系統採用模組化架構:感知模組負責識別周圍環境中的物體(車輛、行人、紅綠燈),預測模組負責推算其他道路使用者的未來軌跡,規劃模組負責計算最優行駛路徑,控制模組負責將路徑轉化為方向盤角度和油門/煞車力度。每一個模組都是獨立開發、獨立訓練的,模組之間通過預定義的接口傳遞數據。這種架構的優勢在於清晰的職責劃分和可調試性,但致命弱點是信息瓶頸——每一個模組只能接收上一個模組的輸出結果,原始環境信息在逐層傳遞的過程中不斷流失和壓縮。

VLA 2.0徹底拋棄了這種模組化設計。它將視覺感知、語義理解和駕駛行為控制整合在一個統一的神經網絡中。攝像頭捕獲的原始影像數據直接輸入這個端到端的網絡,網絡在內部完成從「看到什麼」到「理解什麼」再到「應該怎麼做」的全部推理過程,最終直接輸出方向盤角度、加速度和煞車力度等具體的駕駛動作指令。

其中「語言」(Language)的引入是VLA架構最具創新性的設計。傳統的端到端自動駕駛系統只處理視覺輸入和動作輸出,缺乏對場景的語義層面理解。而VLA 2.0引入了大型語言模型的推理能力,使系統不僅能夠「看見」前方有一群人聚集在斑馬線旁邊,更能夠「理解」這可能是學校放學時段、這些人很可能會突然橫穿馬路、因此需要提前減速並保持更大的安全距離。這種語義理解能力,讓VLA 2.0在面對複雜、模糊和非典型場景時展現出遠超傳統系統的判斷力。

「VLA 2.0不是在模擬人類駕駛員的操作,而是在模擬人類駕駛員的思考方式。它看見道路、理解場景、做出決策——所有這些都在一個統一的智能體中完成。這就是端到端的真正含義。」——小鵬汽車技術團隊

純視覺路線:向感測器重型架構發起挑戰

VLA 2.0最大膽的技術選擇之一,是完全放棄了LiDAR(光達)和高精度地圖的依賴,採用純視覺(Pure Vision)方案。這意味着整個自動駕駛系統僅依靠車身上安裝的攝像頭來感知周圍環境——與人類駕駛員只依靠眼睛的方式在哲學層面上高度一致。

這是對當前自動駕駛產業主流技術路線的直接挑戰。以Waymo為代表的行業標杆,長期以來堅持LiDAR為核心的多感測器融合架構。Waymo的第六代感測器套件整合了LiDAR、攝像頭、雷達和超音波感測器,構建了一個多層次的感知冗餘系統。這種方法的優勢在於感知的精確性和可靠性——LiDAR能夠提供精確到厘米級的三維空間測量,在這方面攝像頭確實存在天生的劣勢。

然而,感測器重型架構也帶來了三個難以回避的問題。

  • 成本瓶頸:一套車規級LiDAR的價格從數百美元到數千美元不等,加上配套的計算平台和校準系統,整套自動駕駛硬體成本高昂。這使得搭載完整LiDAR系統的車輛難以進入消費級價格區間
  • 規模化困境:高精度地圖需要專業車隊反覆掃描每一條道路、每一次道路施工都需要更新。這意味着自動駕駛的營運範圍被高精地圖的覆蓋範圍嚴格限制,擴展到新城市的邊際成本居高不下
  • 系統複雜性:多感測器融合需要處理不同感測器之間的時間同步、空間配準和數據衝突。每增加一個感測器類型,系統的複雜度就呈指數級增長,故障點也隨之增加

VLA 2.0的純視覺方案繞過了所有這些問題。沒有LiDAR,硬體成本大幅降低;沒有高精地圖,理論上可以在任何有道路的地方運行;單一的視覺輸入源,簡化了整個感知流程。當然,純視覺方案也面對自身的技術挑戰——在極端光照條件(強逆光、夜間無路燈)和惡劣天氣(暴雨、大霧)下的感知穩定性,一直是業界質疑的焦點。VLA 2.0通過大規模訓練數據和神經網絡的泛化能力來應對這些邊緣情境,但這種方法是否能夠達到與多感測器融合相當的安全冗餘度,仍有待更長期的數據驗證。

端到端的技術革命:從模組化到一體化

「端到端」(End-to-End)是理解VLA 2.0技術本質的另一個關鍵概念。在機器學習語境中,端到端意味着整個系統從輸入到輸出由一個統一的模型完成,中間不存在人為設定的模組邊界和接口規範。

傳統模組化自動駕駛系統的開發流程是分而治之的:感知團隊訓練物體檢測模型,預測團隊訓練軌跡預測模型,規劃團隊設計路徑規劃算法,控制團隊調試PID控制器。每個團隊針對自身模組的指標進行優化,但模組之間的整合往往是最棘手的工程挑戰。一個典型的問題是:感知模組以99.5%的準確率識別了前方車輛,但那0.5%的漏檢恰好發生在預測模組最需要這一信息的時刻,導致整個系統做出錯誤的決策。

端到端方法從根本上消除了這種模組間的信息損耗。VLA 2.0的神經網絡在訓練過程中直接學習從原始攝像頭影像到最終駕駛動作的完整映射。網絡內部是否形成了類似傳統模組的功能分區,完全由數據驅動的學習過程自動決定。這種方式的優勢在於,網絡可以自由發現數據中最有用的特徵和表示方式,不受人類預設的模組劃分所限制。

端到端 vs. 模組化自動駕駛:關鍵對比

  • 感知方式:端到端直接處理原始影像;模組化需逐層提取特徵,信息逐漸衰減
  • 決策邏輯:端到端由神經網絡隱式學習;模組化依賴人工設計的規則和接口
  • 場景適應:端到端通過大量數據自動適應長尾場景;模組化需人工為每種新場景編寫應對規則
  • 系統優化:端到端從輸出端反向傳播梯度至輸入端,全局最優;模組化各自局部優化,難以全局協調
  • 可解釋性:端到端是「黑箱」,決策過程不透明;模組化每個環節可追溯、可調試
  • 開發速度:端到端數據驅動,迭代快速;模組化工程量大,迭代周期長

然而,端到端方法並非沒有爭議。最大的批評來自可解釋性方面——當系統做出一個看似不合理的駕駛決策時,工程師很難精確追溯「為什麼」。在模組化系統中,可以逐一檢查感知是否漏檢、預測是否偏差、規劃是否出錯;但在端到端系統中,整個決策過程隱藏在神經網絡的數十億參數之中。對於安全至上的自動駕駛領域,這種「黑箱」特性一直是監管機構和保險公司的主要擔憂。

「DeepSeek時刻」:何小鵬的產業拐點論

小鵬CEO何小鵬將VLA 2.0的推出稱為自動駕駛產業的「DeepSeek時刻」,這個比喻精準地捕捉了當前技術演進的本質。

回顧2025年初DeepSeek在大型語言模型領域引發的震動:一家中國AI公司用遠低於矽谷巨頭的成本,訓練出了性能比肩甚至超越GPT-4的開源模型,從根本上動搖了「AI進步必須依賴天量算力和天價投資」的既有認知。DeepSeek證明了在正確的架構和訓練方法論下,更高的效率可以彌補資源的差距。

VLA 2.0所代表的,是自動駕駛領域的同構轉折。過去十年,自動駕駛的主流敘事由Waymo、Cruise等美國公司主導,核心假設是:安全可靠的自動駕駛必須依賴昂貴的感測器陣列、海量的高精度地圖數據和龐大的運營基礎設施。在這個框架下,自動駕駛被視為一場資本密集型的消耗戰,只有擁有最多資源的公司才能最終勝出。

VLA 2.0挑戰的正是這個前提。通過純視覺方案和端到端架構,小鵬用一套成本遠低於LiDAR方案的系統,在消費級量產車上實現了L4級的自動駕駛能力。如果這套方案被大規模驗證為安全可靠,那麼整個自動駕駛產業過去十年建立在感測器重型假設上的技術路線圖、投資邏輯和競爭格局,都將面臨根本性的重估。

「這就像DeepSeek對大模型產業做的那樣——證明你不需要最昂貴的方案來達到最好的效果。VLA 2.0證明了自動駕駛不需要LiDAR、不需要高精地圖,只需要更聰明的AI。這是一個產業的拐點。」——何小鵬,小鵬汽車CEO

大眾採用VLA 2.0:全球汽車供應鏈的歷史性逆轉

如果說VLA 2.0的技術架構是一個學術和工程層面的突破,那麼大眾汽車的採用決定則是一個產業和地緣政治層面的地震。

大眾汽車是全球最大的汽車製造商之一,也是德國工業的象徵。一家如此重量級的西方車廠,選擇採用中國公司開發的自動駕駛軟體系統——這在全球汽車產業百餘年的歷史中前所未有。它打破了多重既有認知:中國汽車技術不如西方的刻板印象、核心軟體系統不可能外包給中國供應商的行業慣例、以及中西方技術合作在自動駕駛等敏感領域的隱形壁壘。

大眾做出這一決定的背景,是其在軟體定義汽車轉型上的持續掙扎。大眾曾於2020年成立軟體子公司CARIAD,投入超過200億歐元試圖自主開發自動駕駛和智能座艙軟體,但CARIAD深陷延期、超支和管理層動盪的困境,最終未能交付令人滿意的成果。在自研路線受阻的情況下,大眾轉而尋求外部合作夥伴,而小鵬VLA 2.0憑藉其技術成熟度和成本優勢脫穎而出。

這一合作對雙方的戰略意義各有側重。對大眾而言,採用VLA 2.0意味着快速獲得業界領先的自動駕駛能力,避免在軟體自研的泥潭中繼續消耗寶貴的時間和資源。在中國這個全球最大的汽車市場上,搭載先進自動駕駛功能已成為消費者購車的重要決策因素,大眾急需這一能力來維持競爭力。對小鵬而言,大眾的採用是對其技術的最高級別背書,也為VLA 2.0打開了進入歐洲市場的戰略通道。

大眾-小鵬合作的產業意義

  • 技術認證:全球頂級車廠對中國AD軟體的首次正式採用,打破了「中國技術不夠成熟」的偏見
  • 供應鏈逆轉:從過去中國依賴西方核心技術,到西方車廠主動引進中國軟體系統,標誌着汽車技術供應鏈的重大結構性轉變
  • 市場准入:小鵬藉助大眾的全球渠道,有望將VLA技術推向歐洲和其他市場
  • 競爭壓力:其他西方車廠將被迫重新評估自身的AD戰略——是繼續自研,還是與中國技術公司合作?
  • 地緣博弈:在中美科技脫鈎的大背景下,中德在自動駕駛領域的深度合作具有特殊的地緣政治意涵

挑戰Waymo:兩條技術路線的終極對決

VLA 2.0的出現,將自動駕駛產業最深層的技術路線之爭推向了決戰時刻:純視覺端到端 vs. 多感測器模組化。

Waymo代表的是「堆疊式安全」理念——通過多種感測器的冗餘覆蓋來確保感知的可靠性,通過人工設計的安全規則來約束系統行為。這種方法在工程層面經過了嚴格的驗證,Waymo每英里致傷事故率比人類駕駛低85%的安全紀錄,是這一路線最有力的實證。目前Waymo每週完成超過15萬次載客行程,在三個美國主要城市實現了真正的商業化運營。

VLA 2.0代表的則是「智能式安全」理念——通過更聰明的AI來彌補感測器的精簡,通過端到端學習來超越人工規則的局限。這種方法的理論上限更高(因為不受人工設計的規則所限制),但當前的實際安全數據遠不如Waymo充分。

兩條路線的核心分歧,可以歸結為一個哲學問題:你相信硬體冗餘,還是相信軟體智能?

支持Waymo路線的人認為,在涉及人命的場景中,冗餘是不可妥協的。LiDAR在任何光照條件下都能提供精確的三維測量,這是攝像頭做不到的。即使AI再聰明,如果輸入端的信息本身就有缺失(例如攝像頭在強逆光下致盲),系統的決策基礎就不存在了。

支持VLA路線的人則反駁:人類駕駛員只有兩隻眼睛,沒有LiDAR,沒有雷達,卻能在絕大多數場景下安全駕駛。這說明足夠智能的視覺處理系統完全有能力實現安全駕駛。而且,LiDAR的成本和複雜性嚴重限制了自動駕駛的普及速度——如果只有少數高端車輛能用得起自動駕駛,那這項技術的社會價值就大打折扣。

這場技術路線之爭沒有教科書式的標準答案。最終的裁判將是大規模、長時間的真實道路安全數據。VLA 2.0即將在三月開始向消費者推送,這意味着數以萬計甚至數十萬計的車輛將在真實道路上運行這套系統,由此產生的海量安全數據,將在未來一到兩年內給出最具說服力的答案。

L4級消費車:自動駕駛商業化的範式轉移

VLA 2.0另一個不容忽視的創舉,是將L4級自動駕駛能力帶入消費級量產車。

按照國際汽車工程師學會(SAE)的分級標準,L4級自動駕駛意味着車輛在特定條件下可以完全自主駕駛,不需要人類駕駛員隨時準備接管。此前,L4級自動駕駛技術幾乎完全局限於專用的機器人出租車(Robotaxi)——Waymo的全自動載客服務、百度蘿蔔快跑的無人駕駛出租車,都屬於這一範疇。這些車輛通常經過特殊改裝、配備昂貴的感測器套件、在有限的地理圍欄內運行,且由專業團隊進行遠程監控。

VLA 2.0的突破在於,它讓普通消費者購買的量產車也能獲得L4級的自動駕駛體驗。消費者不需要額外購買昂貴的硬體升級,因為純視覺方案所需的攝像頭已經是車輛的標準配置。系統通過OTA(空中下載)方式直接推送到車輛,就像智能手機更新系統一樣簡單。

這代表了自動駕駛商業化模式的根本性轉移。Waymo的模式是「重資產運營」——公司自己擁有和運營一支自動駕駛車隊,通過提供出行服務來賺取收入。小鵬的模式則是「輕資產賦能」——公司將自動駕駛能力嵌入消費者擁有的車輛中,通過車輛銷售和軟體訂閱來實現商業回報。兩種模式各有優劣,但小鵬的模式在規模化速度上具有天然優勢——每一輛售出的車都是自動駕駛網絡的一個新節點,數據飛輪的增長速度遠超專用車隊模式。

全球競爭格局的重塑

VLA 2.0和大眾合作的雙重衝擊波,正在深刻重塑全球自動駕駛的競爭格局。

在此之前,全球自動駕駛的版圖大致呈現「美中雙極」格局:美國以Waymo、Tesla、Aurora等公司為代表,在技術深度和商業化進度上保持領先;中國以百度、小鵬、華為等公司為代表,在市場規模和政策支持上佔據優勢。兩個陣營基本平行發展,技術和商業合作有限。

VLA 2.0打破了這種平行結構。當一家中國公司的自動駕駛系統被全球最大的車廠之一採用,並將搭載在面向全球市場銷售的車輛上,這意味着中國的自動駕駛技術不再局限於本土市場,而是開始向全球輸出。這對產業競爭格局的影響是多維度的。

對於美國自動駕駛公司而言,VLA 2.0的出現意味着來自中國的技術競爭壓力空前加大。Waymo的技術路線雖然在安全紀錄方面表現優異,但其高成本和低擴展速度的劣勢在純視覺方案的對比下更加凸顯。Tesla的FSD(全自動駕駛)同樣採用純視覺路線,但在端到端架構和VLA模型的技術深度上,VLA 2.0似乎更進一步。

對於歐洲車廠而言,大眾的選擇可能引發連鎖反應。BMW、Mercedes-Benz、Stellantis等車廠都面臨着相似的軟體自研困境——投入巨大但進展緩慢。如果大眾通過採用VLA 2.0成功快速獲得了有競爭力的自動駕駛功能,其他歐洲車廠可能被迫效仿,進一步加速中國自動駕駛技術向全球的滲透。

對於日韓車廠而言,VLA 2.0的衝擊同樣深遠。Toyota、Hyundai等公司在自動駕駛領域的投入相對保守,主要依賴Level 2+的駕駛輔助系統。當消費者開始在競品車型上體驗到L4級的自動駕駛,這些車廠的產品競爭力將受到嚴峻考驗。

安全疑問與監管挑戰

在對VLA 2.0的讚嘆之中,安全問題始終是最關鍵的懸念。將L4級自動駕駛系統通過OTA推送到數以萬計的消費車輛上,意味着這些車輛將在全國各地的真實道路上自主行駛——包括繁忙的城市交叉路口、高速公路匯入匝道、施工區域和學校路段。任何一次嚴重的安全事故,都可能對整個系統的公眾信任和監管許可造成致命打擊。

與Waymo的專用車隊模式相比,消費者自有車輛模式在安全管控方面面臨更大的挑戰。Waymo可以精確控制車輛的行駛區域、天氣條件和維護狀態;而消費者可能在任何條件下使用VLA 2.0——大霧天氣、未鋪裝道路、攝像頭鏡頭沾滿泥水。系統是否在所有這些邊緣條件下都能做出安全的決策,目前尚缺乏足夠的公開數據。

監管層面的挑戰同樣巨大。中國的自動駕駛法規框架正在快速演進,但對於L4級消費車輛的具體監管規範——事故責任劃分、保險制度設計、遠程監控要求——仍處於摸索階段。歐洲和美國的監管體系則更加謹慎,L4級自動駕駛在消費車輛上的合法性在大多數市場仍有待明確。大眾如何在不同監管環境中部署搭載VLA 2.0的車型,將是一個複雜的合規工程。

端到端系統的「黑箱」特性使監管難度更上一層。傳統的模組化系統可以向監管機構逐一展示每個環節的功能和安全邏輯;但VLA 2.0的決策過程隱藏在深度神經網絡之中,難以用傳統的工程語言向監管者解釋「為什麼系統在這個場景下做出了這個決策」。這對當前以「可追溯性」和「可審計性」為核心原則的汽車安全監管框架,提出了根本性的挑戰。

對香港及大中華區的啟示

VLA 2.0的發布對香港和大中華區的汽車產業、技術生態和政策制定者都具有重要的參考意義。

對於香港而言,作為高密度城市環境的典型代表,香港的道路條件——狹窄的街道、複雜的交通流、大量的行人和自行車——構成了自動駕駛技術的極端測試場景。VLA 2.0的純視覺端到端方案,由於不依賴高精度地圖,理論上更容易適應香港這種道路佈局頻繁變化的城市環境。然而,香港獨特的法規體系和保險制度,意味着L4級自動駕駛的落地仍需要相當的政策創新。

對於大中華區整體而言,VLA 2.0標誌着中國自動駕駛技術從「追趕」到「引領」的質變。中國車企在智能化方面的快速進步——從比亞迪的規模化電動車到華為的HiPilot系統,再到小鵬的VLA 2.0——正在構建一個日益完整和自主的智能汽車技術生態。大眾的採用決定,更是對中國汽車技術水平的國際級認證。

對於投資者和產業觀察者而言,VLA 2.0的出現意味着需要重新評估自動駕駛產業的投資邏輯。過去「押注感測器硬體公司」的策略可能需要調整——如果純視覺方案被驗證為可行,LiDAR相關企業的長期市場空間將被顯著壓縮。反之,專注於AI軟體能力的自動駕駛公司,其價值可能被市場低估。

編輯觀點

小鵬VLA 2.0的發布和大眾汽車的採用,無疑是2026年自動駕駛產業最重大的事件之一。何小鵬將其稱為「DeepSeek時刻」並非誇張——正如DeepSeek改變了人們對AI算力門檻的認知,VLA 2.0正在改變人們對自動駕駛技術門檻的認知。純視覺、端到端、單一神經網絡——這套方案的優雅和激進令人印象深刻。

但我們必須保持審慎。自動駕駛不同於大型語言模型——後者的錯誤頂多是生成一段不準確的文字,而前者的錯誤可能是一條人命。VLA 2.0在消費車輛上的大規模部署,是一場沒有回頭路的實驗。系統的安全性能否在數十萬輛車、數十億公里的真實行駛中經受住考驗,是唯一真正重要的問題。Waymo用十五年的時間和數百億美元的投入來積累安全紀錄,小鵬選擇了一條更快的路——但更快不一定意味着更好。

大眾汽車的選擇則發出了一個不可忽視的信號:全球汽車產業的技術重心正在向東移動。這不是一次偶然的合作,而是結構性趨勢的反映。對於所有仍在自動駕駛賽道上競爭的企業而言,VLA 2.0不僅僅是一個新產品——它是一面鏡子,映照出整個產業正在經歷的深刻變革。未來十二個月的安全數據,將決定這面鏡子反映的究竟是突破的黎明,還是冒進的代價。