顛覆性的「模型即矽片」理念
要理解Taalas的技術突破,首先需要理解當前AI推論的效率瓶頸。傳統的GPU推論流程是:將模型權重從記憶體載入處理器,逐層計算,再將結果輸出。在這個過程中,大量的能量和時間消耗在資料搬運上——即所謂的「記憶體牆」(memory wall)問題。GPU的計算能力增長速度遠超記憶體頻寬的提升,導致處理器在等待資料時大量閒置。
Taalas的方法從根本上繞過了這個問題。透過將模型權重直接編碼到晶片的物理結構中——本質上是利用電晶體的連接模式來「硬編碼」神經網路的參數——資料搬運的步驟被完全消除。模型不再是運行在晶片上的軟體,而是晶片本身的一部分。
這個概念並非全新,但Taalas的創新在於開發了一套完整的設計工具鏈,能夠將訓練好的AI模型自動轉換為可製造的晶片設計。公司由前Intel和AMD的資深工程師創立,團隊在晶片設計自動化(EDA)和半導體製造流程方面擁有深厚的積累。
Taalas融資與技術概覽
- 融資金額:1.69億美元
- 主要投資者:OMERS Ventures、BDC Capital
- 總部:加拿大多倫多
- 核心技術:將模型權重嵌入矽片物理架構
- 效能宣稱:推論能效較GPU提升100倍
- 目標市場:手機、汽車、IoT等邊緣裝置
- 創辦團隊:前Intel及AMD資深工程師
100倍能效提升:數字背後的物理邏輯
100倍的能效提升聽起來驚人,但從物理原理來看確實有堅實的基礎。在傳統的馮紐曼架構(von Neumann architecture)中,計算和儲存是分離的,資料在兩者之間的搬運消耗了大量能量。研究顯示,在當代AI推論中,資料搬運的能耗可佔總能耗的60%至90%。
Taalas的模型嵌入式架構消除了這一能耗大戶。由於模型權重已固化在矽片中,推論過程只需要輸入資料的讀取和輸出結果的寫入,中間的所有矩陣乘法運算都在晶片內部以近乎零資料搬運的方式完成。這種架構在理論上可以達到接近熱力學極限的計算能效。
與記憶體內運算(CIM)的區別
業界另一個熱門方向是記憶體內運算(Compute-in-Memory, CIM),同樣旨在解決記憶體牆問題。CIM的思路是在記憶體單元中直接進行計算,但模型權重仍然以「資料」的形式存儲在記憶體中。Taalas的方法更為激進——權重不是「存儲」在晶片中,而是「構成」晶片的一部分。
這種差異帶來了一個重大的取捨:CIM晶片具有一定的靈活性,可以載入不同的模型;而Taalas的晶片一旦製造完成,其中嵌入的模型就無法更改。這意味著每個特定的AI模型都需要一款專屬的晶片——這正是Taalas面臨的最大技術和商業挑戰。
邊緣部署:真正的殺手級應用場景
Taalas明智地選擇了邊緣裝置而非資料中心作為首要目標市場。在資料中心場景下,模型需要頻繁更新,對靈活性的要求極高,Taalas的固化架構難以適應。但在邊緣場景中,情況截然不同。
邊緣部署的獨特優勢
- 手機端:語音助手、即時翻譯等模型相對穩定,極致低功耗是核心需求
- 自動駕駛:感知和決策模型更新週期較長,低延遲和低功耗至關重要
- IoT裝置:工業感測器、智慧家居等場景對成本和功耗極度敏感
- 醫療裝置:經過認證的診斷模型不能隨意更新,固化部署反而是優勢
以智慧手機為例,目前在手機端運行AI模型(如裝置端的語音辨識或影像增強)需要專門的神經處理單元(NPU),但這些NPU本質上仍是可程式化的通用處理器,能效比遠未達到極限。如果Taalas能將特定模型以極低功耗固化在手機晶片中,對於電池壽命和即時回應速度的提升將是革命性的。
模型凍結的問題與對策
最明顯的質疑是:AI模型更新如此快速,一款固化了特定模型的晶片是否很快就會過時?Taalas對此的回應是多層次的。首先,邊緣場景中許多模型的更新頻率遠低於雲端大型語言模型。其次,公司正在開發「模組化嵌入」技術,允許晶片中部分區域是可重新配置的,而將最穩定的基礎層固化。最後,隨著製造成本的下降,定期更換嵌入新模型的晶片在經濟上可能是可行的。
AI專用矽片的激烈競爭
Taalas並非唯一一家嘗試挑戰Nvidia GPU霸主地位的晶片新創。AI專用矽片(Application-Specific Integrated Circuit, ASIC)領域近年來湧現了多家引人注目的競爭者,各自採取不同的技術路徑。
主要競爭者比較
Etched(Transformer專用晶片):Etched選擇了另一種極端——專門為Transformer架構設計的ASIC。與Taalas不同的是,Etched的晶片可以運行任何基於Transformer的模型,但無法支援其他架構。這種方法在靈活性和效率之間取得了不同的平衡點。
Groq(LPU語言處理單元):Groq開發的LPU(Language Processing Unit)強調確定性的低延遲推論。其架構透過消除外部記憶體存取來提升效能,與Taalas的理念有相似之處,但實現方式完全不同——Groq的晶片仍然是可程式化的。
Cerebras(晶圓級計算):Cerebras走的是截然不同的路線,將整片矽晶圓作為一個巨大的處理器,主要針對訓練和大規模推論場景。與Taalas專注邊緣裝置的策略形成互補而非直接競爭。
AI晶片新創競爭格局
- Taalas:模型嵌入矽片,邊緣推論,100倍能效提升
- Etched:Transformer專用ASIC,資料中心推論
- Groq:LPU架構,確定性低延遲推論
- Cerebras:晶圓級計算,大規模訓練與推論
- 共同目標:挑戰Nvidia GPU在AI計算中的主導地位
加拿大AI硬體生態的崛起
Taalas的成功融資也凸顯了加拿大在AI硬體領域日益增長的影響力。多倫多大學和蒙特利爾大學長期以來是全球深度學習研究的重鎮,Geoffrey Hinton和Yoshua Bengio等深度學習先驅在這裡培養了大量人才。但過去加拿大的AI優勢主要體現在軟體和研究層面,硬體領域相對薄弱。
Taalas的出現表明,加拿大的AI人才積累正在向硬體設計領域擴展。OMERS Ventures(安大略省市政僱員退休系統的風險投資部門)和BDC Capital(加拿大商業發展銀行的投資部門)的領投,更反映了加拿大機構投資者對本土AI硬體創新的信心和戰略佈局。
對AI產業的深遠影響
如果Taalas的技術路線被驗證成功,其影響將遠超一家新創公司的商業成敗。模型嵌入矽片的理念可能開啟一個全新的產業模式:AI模型開發商不僅輸出軟體,還輸出晶片設計;半導體製造商不僅生產通用處理器,還大量製造模型專屬晶片。
這也可能改變AI模型的商業化路徑。目前,大型語言模型主要以雲端API的形式提供服務,用戶按使用量付費。但如果特定模型可以以極低成本嵌入終端裝置,AI服務可能會從「訂閱制」轉向「一次性購買」,這將徹底重塑AI的商業模式。
前路仍長:技術與商業的雙重考驗
1.69億美元的融資雖然可觀,但對於晶片設計和製造而言僅是起步。從晶片設計到流片(tape-out)再到量產,通常需要2至3年的時間和數億美元的持續投入。Taalas的技術理念需要經受真實矽片的驗證,而非僅停留在模擬和論文層面。
此外,公司需要建立完善的設計工具鏈和生態系統,讓AI開發者能夠輕鬆地將訓練好的模型轉換為晶片設計。這涉及到EDA工具、模型壓縮和量化技術、以及與晶圓代工廠的密切合作——每一個環節都是重大的技術和商業挑戰。
儘管如此,Taalas代表了AI硬體領域一個極具想像力的方向。在AI推論需求爆炸式增長、而能源和成本約束日益嚴峻的背景下,任何能夠大幅提升能效的技術都值得認真關注。AI Academy HK將持續追蹤Taalas的技術進展及其對邊緣AI產業的影響。