Mastra開源「觀察式記憶」擊敗RAG：LongMemEval得分94.87%創歷史紀錄

什麼是觀察式記憶？

要理解觀察式記憶為何具有革命性，首先需要了解當前AI記憶系統的主流方法——RAG（Retrieval-Augmented Generation，檢索增強生成）。RAG的工作原理是將歷史對話或文件切分成小塊，存入向量資料庫，然後在需要時根據語義相似度檢索相關片段，注入到LLM的上下文中。

Mastra的觀察式記憶採取了完全不同的路線。它不儲存原始對話片段，而是部署兩個專門的AI代理——Observer（觀察者）和Reflector（反思者）——在對話過程中即時壓縮和提煉資訊。

Observer代理

Observer代理在對話進行時持續監控，從對話流中提取關鍵事實、用戶偏好、重要決策和上下文線索。它不是逐字記錄，而是像一個專注的助手一樣，記下「重要的事」而忽略「瑣碎的內容」。

Reflector代理

Reflector代理定期對Observer收集的觀察結果進行「反思」——合併重複資訊、解決矛盾、建立關聯、更新過時的事實。這個過程類似於人類的記憶鞏固機制：我們在睡眠中整理白天的記憶，保留重要的、丟棄瑣碎的。

                    觀察式記憶 vs RAG：核心差異
                    儲存方式：RAG存原始片段 → 觀察式記憶存壓縮觀察結果
檢索機制：RAG推理時需要向量檢索 → 觀察式記憶推理時零檢索
基礎設施：RAG需要向量資料庫 → 觀察式記憶不需要任何外部儲存
文本壓縮：一般對話3-6倍壓縮，工具密集型代理5-40倍壓縮
成本：較RAG降低約10倍

                

LongMemEval：打破Oracle紀錄

LongMemEval是目前評估AI長期記憶能力最權威的基準測試，涵蓋跨對話回憶、時序推理、偏好追蹤等多個維度。在此基準上，Mastra的觀察式記憶搭配GPT-5-mini取得了94.87%的成績，創下歷史新高。

這個成績的驚人之處在於兩點：第一，它超越了所有先前公開的最佳成績逾3個百分點——在這種成熟基準測試中，1個百分點的提升通常已被視為重大突破；第二，它甚至超越了LongMemEval的「Oracle」基準線——這是一個理論上擁有完美資訊的系統，代表「如果你能完美檢索到所有相關資訊」的理想上限。

Mastra團隊解釋，觀察式記憶之所以能超越Oracle，是因為Observer和Reflector的壓縮過程不僅保留了原始資訊，還透過推理產生了「衍生知識」——類似人類從經驗中歸納出的一般性規則，這些規則在Oracle的原始檢索中是不存在的。

架構設計：觀察區塊 + 原始歷史區塊

觀察式記憶的實際運作架構相當優雅。當AI需要回應用戶時，它的上下文視窗由兩個區塊組成：

觀察區塊（Observation Block）：包含Observer和Reflector處理後的壓縮記憶，覆蓋所有歷史對話的精華
原始歷史區塊（Raw History Block）：最近幾輪對話的原始文本，保留即時上下文的完整細節

這種設計巧妙地平衡了「長期記憶」和「短期記憶」的需求。遠期的對話透過壓縮觀察保留關鍵資訊，近期的對話則保持原始完整度，確保AI不會在壓縮過程中遺失正在進行的對話細節。

成本革命：降低10倍

觀察式記憶帶來的不僅是性能提升，更是成本結構的根本改變。傳統RAG系統的成本來自三個方面：向量資料庫的儲存和運算費用、嵌入模型的API調用費用、以及將大量檢索結果注入上下文的Token費用。

觀察式記憶完全消除了前兩項成本，並透過3-6倍的文本壓縮大幅降低了Token費用。對於工具密集型代理（例如頻繁調用API、執行程式碼的AI助手），壓縮比更可高達5-40倍，因為工具調用的原始日誌往往冗長而重複。

Mastra團隊估算，對於一個每天處理數百萬對話的企業級AI系統，從RAG遷移到觀察式記憶可以將記憶相關成本降低約10倍。在AI應用的邊際成本日益受到關注的2026年，這種級別的成本優化足以改變許多商業模式的可行性計算。

                    Mastra團隊背景
                    核心團隊：曾開發Gatsby框架（後售予Netlify）的工程師團隊
開源承諾：觀察式記憶完全開源，可自由整合
技術基因：團隊在開源開發者工具領域擁有深厚經驗
基準成績：LongMemEval 94.87%（搭配GPT-5-mini）

                

RAG的終結？還是進化？

觀察式記憶的突破是否意味著RAG即將被淘汰？答案並非如此簡單。RAG在處理「外部知識庫檢索」——例如企業文件搜索、法律案例查詢——方面仍有不可替代的優勢，因為這些場景需要的是「查找特定文件」而非「記住對話歷史」。

更準確的理解是：觀察式記憶解決的是「對話記憶」問題，而RAG解決的是「知識檢索」問題。兩者針對的是不同的需求維度。未來最先進的AI系統很可能同時採用兩種方法——用觀察式記憶維護長期對話上下文，用RAG檢索外部知識庫。這種「混合記憶架構」可能成為2026年AI基礎設施的新標準。

對於向量資料庫供應商（如Pinecone、Weaviate、Chroma）而言，觀察式記憶的崛起是一個值得警惕的訊號。雖然RAG不會消亡，但如果越來越多的開發者轉向觀察式記憶來處理對話記憶需求，向量資料庫的市場規模可能被重新定義。這些公司需要快速調整定位，聚焦於RAG仍然不可替代的知識檢索場景。

對AI代理生態的影響

觀察式記憶對正在蓬勃發展的AI代理（Agent）生態具有特殊意義。當前的AI代理在執行長時間任務時，往往因上下文視窗限制而「遺忘」早期的操作和決策，導致重複工作或決策不一致。

觀察式記憶的5-40倍壓縮比意味著，一個工具密集型代理可以在有限的上下文視窗中保留數十倍的歷史操作記錄。這直接提升了代理執行複雜、長時間任務的能力——從幾小時的程式碼開發項目到跨越數天的研究分析任務。

技術局限與未解問題

儘管觀察式記憶取得了令人矚目的成績，但也存在一些需要關注的局限性。首先，Observer和Reflector代理本身也消耗計算資源——在對話過程中持續運行壓縮引擎並非沒有成本。對於低延遲要求極高的即時對話場景，這一額外的處理步驟可能帶來可感知的延遲。

其次，觀察式記憶的品質高度依賴Observer和Reflector的「判斷力」——哪些資訊值得保留、哪些可以丟棄、如何正確地建立關聯。如果這些代理在壓縮過程中犯錯（例如遺漏了用戶提到的一個重要偏好），這個錯誤將被永久保留，因為原始對話文本已經被丟棄。

最後，94.87%的LongMemEval成績雖然破紀錄，但仍意味著約5%的記憶任務存在錯誤。在醫療、法律等高風險場景中，這個錯誤率是否足夠低，仍需要進一步驗證。

開源策略的深意

Mastra選擇將觀察式記憶完全開源，延續了團隊在Gatsby時代的開源理念。這一決策的戰略意義在於：如果觀察式記憶成為AI記憶的事實標準，Mastra將處於生態系統的核心位置，為未來的商業化（如託管服務、企業版功能）建立強大的開發者基礎。

從開發者生態的角度看，Gatsby框架的成功路徑為Mastra提供了清晰的參考：先透過高品質的開源項目吸引大量開發者採用，建立社群和品牌認知，再透過企業級功能和託管服務實現商業化。Netlify最終收購Gatsby正是這一模式成功的明證。

結語：記憶是AI的下一個戰場

對於整個AI產業而言，一個開源的、性能超越所有商業方案的記憶系統的出現，可能加速AI應用的民主化——即使是小團隊和個人開發者，也能構建具有強大長期記憶能力的AI產品，而不需要承擔向量資料庫的基礎設施成本。

更深層的意義在於，觀察式記憶提出了一個根本性的技術哲學問題：AI的記憶應該像資料庫一樣「儲存一切，按需檢索」，還是應該像人腦一樣「選擇性記憶，持續整合」？Mastra用94.87%的LongMemEval成績給出了它的答案。這場關於AI記憶本質的技術辯論，很可能定義AI發展的下一個十年。