深度學習,讓人類又抓住一根抗擊癌癥的稻草
【AI世代編者按】美國多個部門正啟動“用于癌癥的先進計算解決方案聯合設計”(JDACS4C)項目,試圖利用深度學習技術推動抗癌研究。國外媒體近期刊文,對這一項目進行了介紹。
里克史蒂芬斯(Rick Stevens)表示,到2017年第二季度,“用于癌癥的先進計算解決方案聯合設計”(JDACS4C)的首批成果將會公布。他負責了JDACS4C三大試點項目之一。這些項目獲得了美國能源部的資助,試圖利用深度學習技術去從事“抗癌戰爭”,不僅推動癌癥的研究和治療,還希望發展深度學習能力和基礎設施,推進百億億次級計算機的應用。
從各個方面來看,美國的抗癌戰爭和精準醫療計劃(PMI)都有著遠大目標。以往的抗癌戰爭項目效果不是很好,但這并不意味著沒有取得任何成果。目前的前景看來更好。生物醫藥科學取得的進展,以及下一代先進計算機成為了強大的賦能設備。深度學習技術的興起推動了由數據驅動的科學,這也是許多人感到樂觀的原因。
JDACS4C的3個試點項目涵蓋了從分子學到人口學的研究,也是對“癌癥分布式學習環境”(CANDLE)的支持。這些項目的目標是“提供關于可擴展機器學習工具的研究信息;發展深度學習、模擬和分析技術,減少解決問題的時間;為未來計算解決方案的設計提供參考”。最終希望是“有效利用不斷增長、逐漸多樣化的癌癥相關數據,建立預測模型,提供對這種疾病更好的理解,為個人患者的治療結果提供指南,支持醫療決策,從而建立未來多年癌癥研究的新范式”。
這些目標非常遠大。不過,JDACS4C的起源有些復雜。這可以歸入PMI項目、美國癌癥研究所(NCI)的“癌癥登月”項目,同時又與美國戰略計算項目(NSCI)相適應。史蒂芬斯表示,關于啟動JDACS4C的討論從幾年前開始,第一輪資金于今年8月開始投入。
以下是3大試點項目的簡介:
1.RAS分子項目。這一項目計劃開發新的計算方法,支持當前RAS行動中已開展的研究。最終目標是增強對癌癥中RAS基因及相關信號通道的理解,在RAS蛋白膜信號復合體中找到新的治療目標。
2.臨床前篩查。這一項目將基于試驗性的生物數據開發“機器學習、大規模數據和預測模型”。思路是創建反饋循環,讓實驗模型指導計算模型的設計。這些預測模型可能指向癌癥中的新目標,協助找到新的治療方式。
3.人口模型。這一項目計劃開發可擴展的框架,有效地歸納、總結、分類癌癥病人的醫療記錄。這樣的引擎在醫療健康的多個方面,包括數據分發、成本控制和科研中,都非常強大。
JDACS4C需要多部門的參與。美國癌癥研究所的參與部門包括生物醫學信息和信息技術中心、癌癥治療和診斷部、癌癥控制和人群科學部,以及弗雷德里克癌癥研究國家實驗室。美國能源部的4所國家實驗室也參加了這一項目,包括阿爾貢國家實驗室、橡樹嶺國家實驗室、勞倫斯-利佛莫國家實驗室,以及洛斯-阿拉莫斯國家實驗室。
史蒂芬斯表示,當項目聚集在一起之后,“我們意識到,每個項目都需要深度學習技術,但有著不同的使用方法。因此這里的思路是,我們需要合作開發軟件環境和網絡拓撲結構,以及其他所需的一切,從而不會干重復勞動。”研究人員定義了關鍵指標,以“解決與癌癥不同子問題相關的深度學習問題”。
最初的第一步是吸引供應商的參與。史蒂芬斯表示,這并不難,因為所有的HPC(高性能PC)供應商都制定了積極的深度學習發展路線圖。大部分廠商都認為,JDACS4C試點項目是個學習和改進的良機。目前,JDACS4C的合作方包括英特爾、Cray、英偉達和IBM等。
史蒂芬斯表示:“所有擁有DGX-1超級計算機,以及英偉達,都優化了針對不同GPU的大部分通用框架。DGX-1就像是一種常見家電,我們開發并運行在DGX-1之上的所有一切都可以很容易地分發。英特爾自身也有龐大的計劃,但還沒有全部公布。我可以說,我們正在與英特爾所有合適的部門展開合作。”史蒂芬斯本人是阿爾貢國家實驗室的研究員,負責了臨床前篩查項目。
英特爾近期在深度學習領域的動作頻頻。英特爾收購了深度學習平臺Nervana,而近期還發布了進一步計劃。史蒂芬斯表示:“他們正在討論Knights X的新版本,這一版本針對機器學習進行了優化。在他們的路線圖上,Knights Mill是首個這樣的版本。”在近期SC16超級計算大會上,英特爾還推出了深度學習推理加速卡,其硬件基于FPGA,而軟件則是神經網絡加速解決方案。史蒂芬斯表示,與英偉達類似,英特爾應當制定通用設備戰略。
與此同時,谷歌、微軟和Facebook也在深度學習框架方面進行了大量工作。史蒂芬斯表示:“我們正在評估,哪一框架最適合解決我們的問題,我們正在與供應商合作,從硬件上進行優化。我們也在與利佛莫實驗室合作,他們的內部項目包括開發可擴展的人工神經網絡框架LBANN。”
JDACS4C的計劃是讓模型的發展獨立于深度學習框架。如果更換框架,JDACS4C也不必對模型進行調整。在深度學習領域,這是非常常見的方法,即設置用于模型表達的腳本層。史蒂芬斯表示:“我們正同時與學術界和英偉達合作,在頂層開發工作流引擎。我們開發了分層架構,這涉及到與深度學習領域各個不同組織的合作。”
“有趣的是,下一代平臺的供應商正擁抱架構概念和特性,從而加速機器學習的發展。”他指出,市場壓力,以及深度學習相對于傳統高性能PC的快速發展正推動供應商向這一方向發展。
目前,JDACS4C試點項目仍處于啟動初期,但這一項目受到的期望很高。史蒂芬斯指出,美國癌癥研究院和美國能源部正在獲得尚不具備的能力。“美國癌癥研究院缺乏數學家和計算機科學家,而美國能源部有這樣的人才。此外他們也沒有高性能計算機。目前,我們能源部能獲得實驗數據、實驗設施和公共數據庫。”(編譯/陳樺)