D-I-TASSER：融合AI與物理學的蛋白質結構預測突破，準確率超越現有技術13%

蛋白質結構預測：從AlphaFold到新範式

蛋白質是生命的基本分子機器。了解蛋白質的三維結構，是理解疾病機制、開發新藥物、設計生物材料的基礎。長期以來，蛋白質結構的實驗測定（如X射線晶體學、冷凍電鏡）既昂貴又耗時，一個蛋白質的結構解析可能需要數月甚至數年。

2020年，DeepMind的AlphaFold2橫空出世，利用深度學習在蛋白質結構預測大賽CASP14中取得了革命性的成績。2024年，AlphaFold3進一步擴展到蛋白質-配體複合物的預測。這些成果使AlphaFold成為結構生物學的代名詞，其主要開發者也因此獲得了2024年諾貝爾化學獎。

然而，純AI驅動的方法並非萬能。在某些關鍵場景下，AlphaFold等方法仍面臨顯著挑戰——而這正是D-I-TASSER發揮作用的領域。

D-I-TASSER的核心創新

D-I-TASSER（Deep learning-integrated Iterative Threading ASSEmbly Refinement）由新加坡國立大學研究團隊開發，其核心理念是將AI的模式識別能力與物理學的基本原理結合起來。

                    D-I-TASSER的技術架構
                    深度學習模組：利用神經網絡從序列信息中預測殘基間距離和接觸圖
迭代穿線組裝：基於已知蛋白質結構模板進行片段組裝和迭代優化
物理能量精修：使用分子力場對預測結構進行物理約束下的精修
多域整合策略：專門處理多域蛋白質的域間相對定位問題

                

簡單來說，D-I-TASSER不依賴單一的「端到端」深度學習管線，而是讓AI和物理學在多個階段交替協作。深度學習負責從海量序列數據中提取模式，物理模擬則確保預測的結構符合真實世界的物理定律——原子間不會重疊、化學鍵角度合理、蛋白質折疊符合能量最小化原則。

為什麼純AI方法存在局限？

要理解D-I-TASSER的價值，首先需要理解AlphaFold等純AI方法在哪些場景下力不從心。

多域蛋白質的挑戰

許多生物學上重要的蛋白質由多個獨立折疊的域（domain）組成，這些域通過柔性連接區段相連。純AI方法在預測單個域的結構時表現出色，但在處理域間的相對空間定位時，準確率顯著下降。這是因為域間的排列方式受到動態的物理交互作用影響，而訓練數據中這類信息相對稀疏。

構象多樣性問題

蛋白質在生理條件下並非靜態結構，而是在多個構象之間動態切換。純AI方法傾向於輸出一個「平均化」的結構，卻可能錯失功能上至關重要的構象變化。基於物理的模擬能夠更好地捕捉這種動態特性。

訓練數據偏差

AlphaFold主要從已知的實驗結構（PDB數據庫）中學習，但PDB中的結構分布存在嚴重偏差——某些蛋白質家族被大量研究，而另一些則數據稀少。在數據匱乏的蛋白質家族中，純數據驅動的方法性能會大幅降低。物理約束則提供了一個不依賴訓練數據的「安全網」。

                    D-I-TASSER vs 純AI方法的核心差異
                    方法論：混合AI+物理 vs 端到端深度學習
多域蛋白質：物理約束改善域間定位 vs 域間預測準確率下降
數據依賴：物理先驗降低數據依賴 vs 高度依賴訓練數據質量
可解釋性：物理模組提供可解釋的能量分析 vs 黑箱式預測
準確率提升：在複雜目標上約13%的改進 vs 在簡單目標上已達上限

                

約13%的準確率提升意味著什麼？

在蛋白質結構預測領域，13%的準確率提升是一個非常顯著的進步。需要理解的是，這不是在所有蛋白質上的平均提升，而是在現有方法表現最差的「難度最高」的目標上實現的改進。

在藥物開發的背景下，結構預測的準確率每提升一個百分點，都可能對藥物結合位點的識別產生重大影響。一個偏差了2埃的預測和一個偏差了1.5埃的預測，可能意味著候選藥物篩選效率的翻倍。

D-I-TASSER的13%提升主要體現在以下場景：

多域蛋白質的全長結構預測
缺乏同源模板的孤兒蛋白質
大型蛋白質複合物的亞基定位
膜蛋白等實驗數據稀缺的類別

互補而非取代：AI for Science的新思路

值得強調的是，D-I-TASSER的研究團隊明確指出，他們的方法是對AlphaFold等純AI方法的補充，而非取代。

在「簡單」的蛋白質結構預測任務上（如單域球狀蛋白、有大量同源模板的蛋白質），AlphaFold已經達到了接近實驗精度的水平。D-I-TASSER的優勢體現在AlphaFold表現不佳的困難目標上。

這反映了2026年「AI for Science」（AI驅動科學研究）領域的一個重要趨勢：從盲目追求端到端AI模型，轉向AI與領域知識（物理、化學、生物學）的深度融合。純粹的「數據驅動」正在讓位於「數據+原理」的混合方法。

2026年AI for Science的三大趨勢

混合建模：AI與物理/化學模型的結合，如D-I-TASSER
主動學習：AI引導實驗設計，減少盲目試錯
跨尺度模擬：從分子到細胞到器官的多尺度AI建模

對藥物發現的實際影響

蛋白質結構預測的準確率提升，對藥物發現流程有直接且深遠的影響。

在傳統藥物開發中，確定藥物靶標蛋白的三維結構是關鍵的早期步驟。如果結構預測不準確，後續的虛擬篩選、先導化合物設計和優化都會受到影響，導致大量時間和資金浪費。

                    D-I-TASSER在藥物發現中的潛在應用
                    改善膜蛋白（如GPCR家族）藥物靶標的結構預測
提升多域蛋白質變構位點的識別精度
加速蛋白質-蛋白質交互作用界面的預測
為「不可成藥」靶標提供更精確的結構基礎
降低藥物開發早期階段的失敗率

                

據估計，將前臨床階段的靶標驗證失敗率降低10%，就能為製藥產業每年節省數十億美元的開發成本。D-I-TASSER在難度最高靶標上13%的準確率提升，有可能在實際應用中產生這一量級的經濟效益。

新加坡在AI科學研究中的地位

D-I-TASSER由新加坡國立大學團隊開發，這並非偶然。新加坡近年來在生物科技和AI研究的交叉領域投入了大量資源。NUS的計算生物學研究中心擁有世界級的研究團隊，且與新加坡生物醫藥產業（如Biopolis研究園區）緊密合作。

作為亞洲的科研重鎮，新加坡在AI for Science領域的持續產出，也為鄰近的香港提供了參考。兩座城市在規模、國際化程度和研究基礎設施方面有許多共同點，在生物醫藥AI領域存在廣闊的合作空間。

展望：AI與物理學的更深融合

D-I-TASSER的成功預示著一個更廣泛的趨勢：在AI能力日益強大的同時，領域專業知識和基本物理原理的價值不會消失，反而會因為與AI的結合而被放大。

對於下一代AI研究人員和生物學家來說，這意味著跨學科素養比以往任何時候都更加重要。不僅要懂得深度學習，還需要理解蛋白質折疊的物理化學原理。AI Academy HK將持續關注AI for Science領域的最新突破，為讀者帶來第一手的分析和解讀。