深度學習為蛋白質科學開拓了下一個境地 - Physics Today - 新聞訊息

深度學習為蛋白質科學開拓了下一個境地

Physics Today

撰文者：Johanna L. Miller 宋徴育譯

發文日期：2022-03-10

點閱次數：2343

現今，電腦模型在蛋白質的三維結構上，能提供驚人的準確預測。那它們在生物學上的功能又是如何呢？

從本質上來說，蛋白質和其他種類的聚合物(polymer)很相像：由20種左右的胺基酸單體結構單元，組成了具有彈性的線性鍵結。但與傾向於隨機翻轉的合成聚合物不同，蛋白質能確實地折疊成特定的三維形狀。而這些形狀的多樣性造就了生物世界的複雜性。

在過去半個世紀以來，尋找胺基酸序列與折疊結構之間的關係是一項重大的挑戰，這有關於細胞生物學、化學、生物物理學，以及醫學領域。迄今為止，蛋白質資料庫(Protein Data Bank, PDB)已向全世界提供了超過18萬個蛋白質結構。但即使是如此龐大的資源，也幾乎無法對數千萬計、由所有生物物種的基因編寫出的蛋白質造成多大的影響力。

2020年十一月，身為在蛋白質結構預測技術的關鍵測試(Critical Assessment of Structure Prediction，CASP)專題中的一部分，倫敦DeepMind公司的研究人員表示他們的AlphaFold2模型取得了驚人的進展。AlphaFold2在給定的蛋白質胺基酸序列中，通常能以大多數原子的位置都在1埃(angstrom, Å)—小於一個化學鍵長度—以內的準確度，預測蛋白質的結構¹。該團隊現已公布了自己預測的蛋白質結構資料庫，包含完整的人類蛋白質體，以及許多實驗學家尚未能解析的非人類蛋白，如圖1所示。

圖一、從AlphaFold蒐集的大量蛋白質結構中，預測的這個蛋白可能會促進阿拉伯芥(Arabidopsis thaliana)的抗病性。顏色代表預測蛋白質區域可信度的高(藍色)低(黃色及橘色)。該蛋白質結構還沒有透過實驗觀察到。(由AlphaFold蛋白質結構資料庫提供，CC BY 4.0.)

在華盛頓大學(University of Washington)，大衛．貝克(David Baker)研究小組的Minkyung Baek和她的同事受AlphaFold2的啟發，但只取了該模型架構的粗略想法，開發了一個有相似功能的模型，稱為RoseTTAFold，以便在這個夏天(2021年)及時與AlphaFold2的結果一起發表²。

AlphaFold2與RoseTTAFold都使用了深度學習(deep learning)—一種人工智慧技術—意味著它們內部的運算大部份是個黑盒子。但引領它們的原則與多年以來一直主導著結構生物學家的原則相同。且它們的成功，讓研究學者思考如何更廣泛地利用蛋白質及其生物環境的樣貌。

一項艱難的問題

與其餘的有機化學相比，我們對蛋白質的了解晚了許多。第一個已知的蛋白—肌紅蛋白(myoglobin)及血紅蛋白(hemoglobin)—一直到1958年及1959年，也就是在DNA結構出現的五年後才被解開。

且與DNA優雅的雙股螺旋不同，蛋白質結構是一團混亂。萊納斯．鮑林(Linus Pauling)比其他人更早預測到胺基酸鏈可以組織成有序的α螺旋結構(alpha helix)和β折疊結構(beta sheet)。這些基礎模型確實會出現在蛋白質結構中，但在它們之中會穿插著意料之外的巨大扭轉。「這有一種『天哪！這裡沒有對稱性』的感覺。」在石溪大學(Stony Brook University)的肯．迪爾(Ken Dill)說。不過，蛋白質結構也不是無序的：對於任一個給定的蛋白質，它們的結構總是相同。

血紅蛋白和肌紅蛋白已透過X射線晶體學(x-ray crystallography)得到其結構。X射線晶體學長期以來一直是用於測量任何材料原子結構的黃金標準，而不僅僅只用於生物分子上。(請見Physics Today 1995年11月份的第42頁，由Wayne Hendrickson所寫的文章。) 但這項強大的技術卻有兩項困難的地方。第一，它需要結晶樣品，而這對大多數的蛋白質來說不是自然的存在形式。第二，X光繞射圖只保留了晶體樣品的一半資訊：X光的強度很容易測量，但卻會遺失它們的相位資訊。血紅蛋白的發現者馬克斯．普魯茨(Max Perutz)，透過在蛋白質中插入各種重金屬原子來迅速改變相位，從而解決了所謂的相位問題(phase problem)。(請見Physics Today 2002年8月份第62頁，普魯茨的訃聞)。但這項方法並不總是有效。

近年來，低溫電子顯微技術(cryoelectron microscopy)在以原子解析度成像蛋白質的能力上，已經開始與X射線晶體學相媲美。(請見Physics Today 2017年11月份第22頁的文章。) 它的好處是不需要晶體樣品，而是將分子嵌入一層薄薄的、玻璃化的冰中(註一)，但仍然具有挑戰性。折疊好的蛋白可能會在表面張力的影響下拆解，且需要計算對齊許多隨機角度的二維影像，將它們轉換建立成三維結構。透過任何實驗方法揭示蛋白質的結構都會有其困難且費力的地方。

那在理論上呢？儘管有些蛋白質需要在伴護蛋白(chaperone)的幫助下才能正確地折疊，但大多數的蛋白質只需物理定律就能自己解決折疊的問題。嘗試利用電腦模擬重現它們的折疊方法是很吸引人的(請見Physics Today 2013年12月份第13頁的文章)，但除了最小的蛋白質，其他蛋白的系統複雜性很快就會讓電腦達到它的計算能力極限。

且折疊的物理學是微妙的。折疊好的結構通常在熱力學上是青睞的狀態，但也不是很多，原子間力的細節非常重要。「如果你不了解力，那麼更大的電腦也不能幫助你得到正確的答案，」迪爾說，「它只是更快地給出錯誤的答案。」

生物捷徑

任何成功的蛋白質結構預測方法，包含新的深度學習模型，都需要仰賴生物學的觀點，而不是只有化學和物理學。「蛋白質的序列不是隨機的。它們是透過天擇提煉出來的。」來自天普大學(Temple University)的文森佐．卡尼瓦勒(Vincenzo Carnevale)說。任何給定的蛋白質在橫跨整個生命樹上都有數千個演化表親，而這個演化關係可以提供蛋白質結構的線索。

有著相似序列的蛋白質或許會有類似的結構。如果我們知道相關的同源蛋白質結構，便可將其作為模板：把新序列擬合到舊的結構中，再進行相應的調整。「它以一種驚人的方式起作用，」卡尼瓦勒說，「但這僅是因為人們意識到這個方法可以成功。我們不只需要擴大蛋白質資料庫的數據量，還必須去探索蛋白質序列空間的正確區域。」

從2000年到2015年，蛋白質結構倡議(Protein Structure Initiative)引領了數千種新蛋白質結構的發現，這些蛋白質並非隨意選擇，而是旨在有系統地挖掘蛋白質會採用的可能結構。在計畫的末期，卡尼瓦勒說：「在蛋白質結構空間上不再有任何新的發現。它們都已被完全地描繪出來了。」雖然不是所有的蛋白質序列都有足夠相似的已知結構可以拿來作為模板，但出現完全意料之外的蛋白質結構的時代已經過去了。

與此同時，理論學家正研究即使是在沒有任何蛋白質表親的結構為人知曉的情況下，如何從蛋白質演化關係收集有關其結構的資訊。這項驚人的壯舉是有可能達成的，因為一個家族中的每個蛋白都是其自身演化的最佳產物。當蛋白質中的一個胺基酸隨機突變時，這項突變通常不足以破壞整個蛋白質結構，但確實會破壞其穩定性。因此，演化壓力讓在三維空間中，該胺基酸的鄰居胺基酸也發生突變，從而恢復整個蛋白質結構的穩定性。如果在許多相關蛋白質序列的列表中，有兩個胺基酸位置表現出一前一後突變的趨勢，那麼它們或許在折疊好的蛋白中是彼此相鄰的。

結構上的改革

這些方法和其他的方法在DeepMind公司加入競爭之前，就已經在蛋白質結構預測技術的關鍵測試(CASP)進行了測試及評測。CASP每兩年會以部分計算實驗及部分競爭的方式，對數百個研究團隊進行一次挑戰，挑戰的目標是要重現最近透過實驗發現但尚未被發表的蛋白質結構。目標蛋白質的結構會依照其難度進行分類，一部分是基於它們是否有出現可以被拿來作為模板的同源蛋白質結構。結構預測的分數從0到100劃分：隨機猜測可能會得到低於20的分數；而精確度到達原子等級的結構，則能拿到高於90分。

自CASP的早期開始，對於最簡單且基於模板結構來做預測的模型，其得分一直在80以上，但面對大部分結構較難的目標蛋白，它們的成績大多困在40分左右徘徊不前。因此在2018年，DeepMind公司的原始AlphaFold模型首次加入CASP時，藉由在過半數困難的目標蛋白中獲得超過70分的成績，而改變了整個局面³。

深度學習的強大之處在於它能辨識圖樣，穿插在已知的結構間，並且能比人類觀察者或是更直接的演算法更敏銳地辨認突變的相關性。AlphaFold並不是第一個加入CASP的機器學習模型；而其卓越的表現一部份是因為它利用結構和其相關性數據，不僅預測了會靠在一起的胺基酸對，還能預估所有成對胺基酸距離的完整矩陣。

在2020年的CASP評估中，DeepMind團隊已將其模型改造成AlphaFold2，在大多數的困難目標蛋白中都能獲得接近90分的預測成績—這樣的得分已經相當高，剩下的不足可以說是受限於受比對的蛋白質在實驗上的誤差。

一開始，AlphaFold2沒有公開它所使用的程式碼及方法，只向大家發布了一場三十分鐘的演講，講述這項在兩個平行軌道上處理數據的模型。一個是攜帶著被認為與目標蛋白有關的蛋白質序列列表；而另一個是成對的胺基酸距離矩陣。藉由相互交換兩個軌道上的資訊，該模型反覆更新兩組資訊，直到模型收斂出蛋白質三維結構的最終預測。

Baek及其同事基於演講中的想法開發了RoseTTAFold：一個可疊代更新序列數據、距離矩陣，及三維結構本身的三軌模型。如果它在2020年加入CASP，在最困難的目標蛋白上可以得到平均約為80分的成績。如今，有關AlphaFold2的詳細資訊已被公開，Baek承認AlphaFold2的工程方法較好。「幾乎所有組件都是建立在某種物理學的觀點上。」她說。例如，AlphaFold2要求胺基酸之間的距離要滿足三角不等式—兩點之間的距離不能超過它們到第三點的距離之和—因此即使在中間步驟，也能透過維持物理性質來節省計算時間。

此外，當RoseTTAFold正在以蛋白質資料庫(PDB)中的結構進行訓練時，AlphaFold2的訓練數據已包含了該模型本身預測的其他結構。「用來訓練的數據非常重要，」Baek說，「所以我認為更完整涵蓋的蛋白質空間能對計算引擎有很大的幫助。」

分子交互作用

深度學習是否解決了惡名昭彰的蛋白質折疊問題？這取決於該問題是如何定義的。迪爾畫分了預測蛋白質結構—AlphaFold2和RoseTTAFold的作用—與了解蛋白質折疊之間的不同。他認為後者—包含了繪製用來引導胺基酸鏈進入其折疊結構的漏斗狀能量圖譜—在很大程度上已透過統計物理學解決⁴。

就結構預測而言，深度學習的模型已到了一個里程碑，但離終點線還有很遠的距離。自然界中的蛋白質並不是獨立的結構。它們會與周圍的分子—包括水—相互作用，並與其他蛋白質結合以建立大型的分子機器，最終形成多細胞生物體。

深度學習的方法在解決多分子複合物的結構上已取得了一些進展：圖2中由RoseTTAFold發現的結構，表現了與其受體(以藍色表示)結合的訊號蛋白介白素12(interleukin-12，以紫色表示)。多蛋白結構比單個蛋白質結構的預測更具挑戰性。這些模型高度仰賴來自演化背景及突變相關性的線索。不過，如果胺基酸在不同的分子中，它們就不會總是一前一後地發生突變—尤其當這些分子是來自不同物種的時候，例如病原體與它的宿主。

圖二、RoseTTAFold所產生與其受體(以藍色表示)結合的訊號蛋白介白素12(interleukin-12，以紫色表示)的結構。雖然分子複合物的結構比那些單一蛋白質的結構還要難預測，但這裡的結構與透過低溫電子顯微技術實驗得到的結構非常吻合。(由華盛頓大學蛋白質設計研究所(Institute for Protein Design, University of Washington)的lan Haydon提供。)

「實驗方法絕對不是過時的，」DeepMind公司的科學家Kathryn Tunyasuvunakool說，「實驗能提供AlphaFold目前無法提供的資訊。」她說，該模型的一大優勢在於它能快速地產生結構的起點—在幾分鐘的時間內，而不是幾個月或幾年—而且數量龐大。「這對於像是提出假設和計畫設計實驗來說，是很有用的。」深度學習的模型，能幫助研究者在他們X射線晶體學及低溫電子顯微技術實驗上，填補其中空缺的結構資訊，並解決更具挑戰的結構問題。

新興藥物

藥物的開發是蛋白質結構學最重要的用途之一。為了阻止某個蛋白質在體內執行一些對身體有害的作用，製藥科學家會研究該蛋白質的結構，確認可能與蛋白質活性位點有關的角落或縫隙，並設計一種能將該位點堵住的分子，就如同用軟木塞塞住酒瓶一般。

卡尼瓦勒說：「但實際上沒有『那個』結構這樣的東西。」因為蛋白質會彎曲變形。只專注於找出能對應一個蛋白質靜態結構的分子，會忽略該蛋白能採用的其他構形(conformation)或是在不同構形之間的轉換，而其中任何一種都可能提供破壞蛋白質功能的更有效方法。在某些情況下，以動態方法來開發藥物可能是唯一可行的方式。在像是阿茲海默症(Alzheimer’s disease)或帕金森氏症(Parkinson’s disease)等神經退化性疾病中，胺基酸鏈會纏繞在一起並折疊成錯誤的結構，稱為類澱粉蛋白纖維(amyloid fibril)。纖維的結構是已知的(請見Physics Today 2013年6月份第16頁的文章)，但僅憑結構並不能說明纖維是如何形成的—或如何阻止它形成。

要預測蛋白質的所有構形集合及可動範圍所需的模型，會比現今可用的模型複雜得多。但就如同卡尼瓦勒所說的那樣：「當然，蛋白質序列中編入了這些資訊，因為大自然知道它是什麼。」Baek與同事們所想的另一個雄心壯志是讓他們的模型完全不需要考慮演化關聯，只根據胺基酸序列來預測折疊的結構。演化已經產生一系列奇妙的蛋白質及其功能，但它卻在探索所有蛋白質的可能性上還差得很遠。貝克實驗室的專長是在從頭開始重新設計蛋白質，行使自然界中的蛋白質無法做的事。(請見Physics Today 2020年6月第17頁的文章。)但這些訂做的蛋白質就沒有數百萬年的演化表親可供分析。

迪爾說：「這整個領域都在朝著更大、更好、更快的方向發展：」比以往任何時候都可能提供更大的蛋白質、更複雜的作用，及更詳細的資訊。近期，建立模型的人以及實驗人員都致力於了解SARS-CoV-2—導致人們患上COVID-19的病毒—的棘蛋白(spike protein)，棘蛋白與宿主細胞的結合會與蛋白質的一系列巨大構形變化有關⁵。就像迪爾解釋的一樣：「棘蛋白是一個在更大的複合體—病毒—中的大型蛋白質，它就跟一個巨大的魯布．戈德堡機械(Rube Goldberg Machine)(註二)一樣具有各種運動部件。」

參考資料

J. Jumper et al., Nature 596, 583 (2021); K. Tunyasuvunakool et al., Nature 596, 590 (2021).
M. Baek et al., Science 373, 871 (2021).
A. W. Senior et al., Nature 577, 706 (2020).
R. Nassar et al., J. Mol. Biol. (2021), doi: 10.1016/j.jmb.2021.167126.
See, for example, E. Brini, C. Simmerling, K. Dill, Science 370, 1056 (2020); T. Sztain et al., Nat. Chem. (2021), doi:10.1038 /s41557-021-00758-3

譯者註一: 玻璃化冰，指的是快速降溫而不具有結晶結構的冰。

譯者註二: 魯布·戈德堡機械是指一種被設計過複雜但是卻以迂迴方式完成簡單功能的機械。

作者：Johanna Miller

譯者：宋育徵

本文感謝Physics Today (American Institute of Physics) 同意物理雙月刊進行中文翻譯並授權刊登。原文刊登並收錄於Physics Today, November 2021 雜誌內 (Physics Today 74, 10, 14 (2021); https://doi.org/10.1063/PT.3.4850)。原文作者：Johanna L. Miller。中文編譯：宋育徴，國立中央大學物理系助理。

Physics Bimonthly (The Physics Society of Taiwan) appreciates that Physics Today (American Institute of Physics) authorizes Physics Bimonthly to translate and reprint in Mandarin. The article is contributed by Johanna L. Miller, and are published on (Physics Today 74, 10, 14 (2021); https://doi.org/10.1063/PT.3.4850). The article in Mandarin is translated and edited by Y.C.Sung , working at the Department of Physics, National Central University.