百圖生科發布AI生成蛋白質平臺,實現輸入疾病信息能快速生成靶點!
“大家以前覺得AlphaFold 2已經非常準了,但在與進化不相關的蛋白,即在人和病毒斗爭過程中演化的蛋白方面,實際建模得不太好。而通過大模型的訓練以及下游的結構預測,我們得到一個模型比AlphaFold 2還要準三倍,在預測蛋白質結構時的速度比AlphaFold快100多倍。”
AI Generated Protein(AI生成蛋白質)平臺能力。3月23日,百圖生科發布生命科學大模型驅動的AIGP —— AI Generated Protein(AI生成蛋白質)平臺,旨在利用AI設計創新蛋白質的negligible與行業伙伴共同研發更多前沿藥物和其他生命科學項目,同時驅動AIGP平臺的技術進步。
“AIGP平臺第一個功能是,根據形狀及理化性質(物理性質和化學性質)需求,生成一系列滿足需求的蛋白。第二類功能是根據一個蛋白質靶點生成對應和靶點結合的蛋白,比如針對新冠生成一個蛋白,甚至針對石油相關的分子生成一個酶。第三類功能是輸入病人疾病相關的多組學數據,如胃癌病人,AIGP平臺能夠分析其多組學數據,找到針對這個胃癌病人的靶點,根據這個靶點生成一個抗體甚至一系列有多樣性的蛋白。最后,一鍵式生成的蛋白回到自動實驗室里合成蛋白。”百圖生科CTO宋樂對澎湃科技(www.thepaper.cn)介紹道。
百圖生科(BioMap)是生物計算引擎驅動的創新藥物研發平臺,由百度創始人李彥宏發起創立,致力于將先進AI技術與前沿生物技術相結合,構建獨特的靶點挖掘及藥物設計能力,開發創新藥物。
杰特曼期待,AIGP會帶來更多的蛋白質/抗體生成模型,抗體工程師們可能會從這些模型的預測中發現自己從未注意過的細節,“如果將這些模型視作‘idea generator(想法生成器)’,一切會變得更加美妙”。
目前,百圖生科AIGP平臺設置了3類功能模塊,分別是Function to Protein Design(F2P,根據結構、功能、可開發性等功能指標設計/優化蛋白質)、Protein to Protein Design(P2P,給定抗原等目標蛋白,設計與之以特定方式結合的抗體等蛋白),以及Cell to Protein Design(C2P,給定細胞,發現調控細胞功能的靶點蛋白并設計相應的調控蛋白)。
這個平臺背后是百圖生科打造了兩年多的千億參數跨模態大模型“xTrimo”(The Cross-Modal Transformer Representation of Interactome and Multi-Omics)。其從跨物種、跨模態的生命信息中學習蛋白質如何構成和實現功能、如何相互作用、如何組合和調控細胞功能的關鍵規律,從而破解生命的自然語言——蛋白質。
對于近期由ChatGPT引起的對“涌現”的關注,中國科學院院士、著名免疫學家董晨教授認為,“AI能夠解決的問題,就是對大數據的分析和進一步的演繹和應用。在當下的時間節點,AIGP確實是一個呼之欲出的平臺。相信AIGP對于我們理解蛋白質,以及在生物系統中研究和發現它的功能和調控,乃至于將來研發新藥,都會有非常大的作用。”
不過百圖生科CEO劉維也坦言,現在的AIGP只相當于1.0階段,遠不完美。
那為何要在當下發布?“擺在面前的既有機遇也有挑戰。”劉維說。
機遇在于,通過蛋白質大模型對于任務模型的賦能,其發現AI預訓練大模型確實對多樣化蛋白質問題有非常快速的賦能和提升。他舉例稱,哪怕在具體問題如某一個靶點或蛋白上,原來積累的數據并不夠,在任務模型上的積累并不夠。但通過AI大模型對任務的賦能,在有些問題上就能比較快達到今天的SOTA(state of the art,在特定任務中目前表現最好的方法或模型)能力。
挑戰在于,現在多種任務的成功率普遍有限,比如蛋白質彈頭(“彈頭”是抗體)設計能力,“將7000個膜表面蛋白上都輸入到AIGP平臺,只有一小部分在一兩個輪次內可以找到成功的彈頭。如何從開始展露一些能力到提高其泛化能力,提高速度,這需要專業伙伴的合作,他們往往帶來對問題更好的定義,在生物學領域的know-how(專門知識)也有非常強大的積累。”宋樂說。
而如果每一種蛋白需要重新搭實驗體系,那可能10年的時間也只夠在很小的領域向前走幾步。
據劉維透露,6月開始會進一步發布AIGP 1.5版本,請公眾的專業用戶使用。一年內發布AIGP 2.0版本,在蛋白質彈頭設計等一些核心功能上提供更多的自主使用能力,為廣大開發者提供普及化的蛋白質生產能力,讓做蛋白質的門檻從專門的Biotech(生物科技公司)降到生命科學的研究者都能使用的水平。