超算新突破將深度學習訓練時間縮減到數分鐘
微軟和瑞士國家計算中心(CSCS)的科學家們取得了重大突破,將超級計算機上深度學習的訓練時間縮減到數分鐘。訓練時間的縮短,再加上超級計算機技術的引入,或能夠解決現在在圖像、視頻和語音識別,自然語言處理等方面問題的瓶頸。考慮到深度學習能夠提供的復雜性,這樣的研究還可能擴展到其它多個領域。微軟AI研究員黃學東認為,這項研究甚至可能推動深度學習的界限,因為它代表了訓練及評估深度學習算法的大突破。
深度學習模型通常需要數周的時間來訓練。但現在,微軟和瑞士國家計算中心(CSCS)的科學家們取得了重大突破,將超級計算機上深度學習的訓練時間縮減到數分鐘。
訓練時間的縮短,再加上超級計算機技術的引入,或能夠解決現在在圖像、視頻和語音識別,自然語言處理等方面問題的瓶頸。考慮到深度學習能夠提供的復雜性,這樣的研究還可能擴展到其它多個領域。
該團隊將微軟認知工具包(一個訓練深度學習算法的開源代碼包)擴展到瑞士實驗室的Cray XC50超級計算機上的超過1000個Nvidia Tesla P100 GPU加速器,這臺超級計算機代號Piz Daint。
根據該團隊研究員的解釋,深度學習在算法方面和傳統運行在大規模并行超級計算機上的應用是類似的,通過使用Cray XC Aries網絡以及高性能的MPI庫來優化節點間通信,每個訓練任務可以使用更多的計算資源,進而縮短訓練單個模型所需的時間。
瑞士超級計算中心主任Thomas Schulthess表示,這項突破意味著研究人員能夠利用現有的超級計算機解決那些以前被認為不可行的深度學習問題,以前一般認為那些問題需要幾個月的時間來訓練模型。
微軟AI研究工程師黃學東認為,這項研究甚至可能推動深度學習的界限,因為它代表了訓練及評估深度學習算法的大突破。這一突破的結果將允許研究人員運行更大型、更復雜的深度學習工作負載。