重大飛躍:人工智能預測幾乎整個“蛋白質宇宙”!
AlphaFold工具已經確定了大約2億種蛋白質的結構,這些蛋白質來自地球上幾乎所有已知的生物體。該研究發布于《Nature》。
蛋白質的3D形狀
01
從現在開始,確定幾乎所有科學已知的蛋白質的3D形狀將像使用搜索引擎一樣簡單。
研究人員已經使用AlphaFold(革命性的人工智能(AI)網絡)來預測來自100萬個物種的約2億種蛋白質的結構,幾乎涵蓋了地球上所有已知的蛋白質。從本質上講,它涵蓋了整個蛋白質世界。
蛋白質的3D形狀或結構決定了它在細胞中的功能。大多數藥物都是使用結構信息設計的,準確的地圖通常是發現蛋白質如何工作的第一步。
倫敦大學學院的計算生物學家使用AlphaFold數據庫來鑒定新的蛋白質家族,她評價說研究人員正在為這個巨大寶庫的釋放做好準備。
高品質結構
02
去年AlphaFold的發布在生命科學界引起了轟動,他們一直在爭先恐后地利用該工具。該網絡對蛋白質的3D形狀或結構進行高度準確的預測。它還提供有關其預測準確性的信息,因此研究人員知道該使用什么作為工具。傳統上,科學家使用耗時且昂貴的實驗方法,如X射線晶體學和冷凍電子顯微鏡來解決蛋白質結構問題。
根據EMBL-EBI的數據,在超過2.14億個預測中,約有35%被認為是高度準確的,這意味著它們與實驗確定的結構一樣。另有45%的人被認為有足夠的信心來支持許多應用程序。
許多AlphaFold結構足以取代某些應用的實驗結構。在其他情況下,研究人員使用AlphaFold預測來驗證和理解實驗數據。其中一些是由蛋白質本身的內在紊亂引起的,這意味著它沒有確定的形狀,至少在沒有其他分子存在的情況下。
今天發布的2億個預測是基于另一個名為UNIPROT的數據庫中的序列。科學家們可能已經對其中一些蛋白質的形狀有了一個想法,因為它們被實驗結構的數據庫所覆蓋,或者類似于這些存儲庫中的其他蛋白質。但這些條目往往偏向于人類,小鼠和其他哺乳動物蛋白質,因此AlphaFold轉儲可能會增加重要的知識,因為它來自更多不同的生物體。
由于AlphaFold軟件已經可用一年,研究人員已經有能力預測他們想要的任何蛋白質的結構。許多人表示,在單個數據庫中提供預測將節省研究人員的時間,金錢和麻煩。
100 TB
03
在數據庫中擁有幾乎所有已知的蛋白質也將實現新型研究。Orengo的團隊已經使用AlphaFold數據庫來鑒定新型蛋白質家族,他們現在將以更大的規模做到這一點。她的實驗室還將使用擴展的數據庫來了解具有有效特性蛋白質的進化,例如消耗塑料的能力以及那些可以驅動癌癥的蛋白質。在數據庫中鑒定這些蛋白質的遠親可以確定其性質的基礎。
不過,目前的AlphaFold仍有提升的空間。倫敦大學學院的博士提出,如何開發模型來預測蛋白質如何折疊,而不僅是預測最終的結構,是研究團隊接下來要解決的問題。
一年前,研究團隊就向科研人員免費公開了AlphaFold的源代碼以及數據庫。目前,已有來自190個國家和地區的50多萬位學者訪問數據庫。這些數據已經在瘧疾疫苗開發、對抗抗生素耐藥性與塑料污染等場景中得到應用,并且幫助研發人員加速新藥研發。
如今,團隊再次免費公開了相關的最新的數據庫,所有2億多個蛋白質結構都能通過數據庫下載,這份前所未有的豐富數據,將幫助我們探索生命科學的無盡奧秘,并對研究生物學、醫藥領域提供巨大幫助。