劍橋2020年度AI報告:學術人才涌向產業,八大預測看明年
近日,劍橋大學的 一年一度的《AI 全景報告》出爐,2020版的 AI 全景報告共177頁,分別從研究、人才、行業、政策和未來展望五個方面介紹了人工智能領域最近一段時間的發展趨勢。
本期的智能內參,我們推薦劍橋大學的研究報告。
本期內參來源:劍橋大學
原標題:
《State of AI Report》
作者: Nathan Benaich Ian Hogarth
一、2020AI研究
人工智能研究沒有想象中那么開放:只有15%的論文公開了他們的代碼。
研究論文代碼的公開對于AI的可問責性、可再現性和推動進展是重要的。自2016年中期以來,該領域在這一指標上幾乎沒有改善。一般來說,學術團體比行業團體更有可能公開他們的代碼。沒有公開所有代碼的著名組織有OpenAI和DeepMind。
▲代碼公開率
在研究論文中,Facebook的PyTorch的速度快于谷歌的TensorFlow,但后者往往是衡量AI產品使用情況的領先指標。
20-35%的會議論文提到了他們使用的框架,75%引用了PyTorch而不是TensorFlow。2018年,有161位作者發表的TensorFlow論文多于PyTorch論文,但其中55%的人改用了PyTorch。
▲PyTorch論文占比
在GitHub上的論文實現中,PyTorch也比TensorFlow更流行。其中,47%的論文實現基于PyTorch,而TensorFIow為18%。PyTorch提供更大的靈活性和動態計算圖,使實驗變得更加容易。JAX是個對數學更友好的Google出品框架,通常在卷積模型和transformer之外的工作中受到青睞。
▲GitHub論文實現框架
語言模型進入十億參數俱樂部,而參數的數量表明了算法在訓練過程中優化了多少不同的系數。
▲參數數量
大尺寸模型正在推動著 NLP 領域的技術進步,OpenAI 的 GPT-3 等新研究已經把深度學習模型的參數數量推到了千億。根據目前的云服務算力價格,訓練每 1000 參數的模型平均需要 1 美元,擁有 1750 億參數的 GPT-3 可能需要花費百萬美元級別的費用,有專家認為這一數字超過了 1000 萬美元。高昂的訓練費用,讓研究人員們在探索新方向時遭遇了挑戰。我們正在迅速接近驚人的計算、經濟和環境成本,以獲得遞增的較小的模型性能改進。
新一代的transformer語言模型正在解鎖新的NLP用例。GPT-3,T5,BART正在極大地改善用于文本到文本任務(例如翻譯,文本摘要,文本生成,文本到代碼)的transformer模型的性能。此外,2019年,NLP全新基準SuperGLUE正式發布。十多個團隊在GLUE基準測試中超過人類。
▲SuperGLUE基準
生物學正在經歷它的“AI時刻”:2020年超過21000篇AI論文與生物學相關。自2017年以來,生物學領域涉及AI方法(例如深度學習,NLP,計算機視覺,RL)的出版物同比增長超過50%。
▲與生物學相關的AI論文數量
不過,當前的大多數機器學習應用是通過統計來實現功能的,其忽略了人類學習知識的重要方法因果推理。在為患者尋找診療方案等任務中,因果推理是更好的方式。Judea Pearl、Yoshua Bengio 等人工智能先驅者都認為,因果推理是使得機器學習系統更好地泛化,更強大穩健,并為決策作出更大貢獻的新方向。
二、AI人才
人才開始外流:AI教授離開大學,進入科技公司。
在2004年至2018年間,谷歌、DeepMind、亞馬遜和微軟從美國大學聘請了52名終身教授。卡內基梅隆大學、華盛頓大學和伯克利大學在同一時期失去了38位教授。值得注意的是,2004年沒有一位人工智能教授離開高校,而僅2018年就有41位人工智能教授離職。
▲AI人才流動
新的教授職位可能會為年輕的學術人才騰出晉升的階梯。與此同時,包括Facebook在內的一些公司將學術/行業的雙重合作作為解決方案。但一些學者并不買賬。
人工智能教授的流失似乎很重要:美國69所大學的離職與畢業生創業能力下降有關。根據報告,人工智能教授的流失對高校來說很重要,在美國69所大學中,畢業生創業能力下降與教授的離職有關。一般來說,人工智能終身教授離職4-6年后,畢業生創辦人工智能公司的可能性降低了4% ;但這種并不適用于教授在學生畢業前1-3年就離開的情況,這表明教授和學生之間的互動很重要;但人工智能教授的離職與同一所大學的畢業生成立非AI公司之間也沒有顯著的相關性。
1億歐元能否為「買」到50位教授?
荷蘭的埃因霍芬理工大學(TUE)已承諾在5年內投入1億歐元,創建一家專注于在機器人和自動駕駛汽車等機器上使用智能算法的新研究所。
銀湖創始人捐贈1億美元,在東北大學創建專注于應用于數字和生命科學的人工智能的魯克斯研究所。這所學院將在應用分析、計算機科學、數據科學、數據可視化和機器學習,以及生物信息學、生物技術、基因組學、健康數據分析和精準醫療等領域進行發展。
中國學者在NeurIPS領域做出了越來越重要的貢獻。
被NeurIPS 2019錄取的論文作者中,有29%的作者是在中國獲得本科學位的。
▲在中國獲取本科學位的學者占比
但在離開中國的大學后,54%的畢業生卻選擇前往美國在NeurIPS發表論文。2019年,美國吸引了超過一半的外國NeurIPS作者。
▲美國人才吸引力
在美國獲得博士學位的中國和非中國學生中,有近90%的人留在美國工作。
▲留美博士后人員
美國人工智能博士項目的外國畢業生最有可能在大公司工作,而美國人更有可能在初創公司或學術界工作。
▲美國人和外國人畢業去向
英國和中國是美國培養人才最大受益國。去英國的畢業生中,55%選擇在私營部門工作;40%移居中國的人也是如此。
▲AI博士生工作國家
但是,大多數在美國工作的頂級人工智能研究人員都不是在美國培養的。
▲美國工作人才本科畢業國家
在論文方面,美國機構和企業繼續主導NeurIPS 2019論文。谷歌、斯坦福大學、CMU、麻省理工學院和微軟研究院占據前五名。
▲NeurIPS 2019論文機構
作為當下最熱門的研究領域之一,AI 領域的人才需求不斷增長。許多一流大學也在擴大 AI 專業的招生規模。以斯坦福為例,最近幾年斯坦福 AI 領域的學生是 1999-2004 年的十倍之多,與 2012-2014 年相比 AI 領域學生數量也是翻了一倍。盡管如此,來自 Indeed 的數據顯示,招聘職位的數量仍約為求職者數量的三倍。
但不可避免的是,2020 年人工智能領域的人才市場受到了新冠疫情的嚴重影響。根據領英發布的數據,2020 年機器學習領域職位原本強勁的增長趨勢在 2 月受到打擊,開始下滑。
▲AI人才市場發展
三、產業
一款由AI設計的藥物在日本已經開始了一期臨床試驗。在AI醫療領域,眾多創業公司籌集了巨額資金,實現了平臺戰略。
▲AI醫療領域公司融資情況
在疫情期間,很多科技公司將AI醫療影像識別技術投入使用。深度學習將超分辨率顯微鏡成像從采集到分析進行了改進,使用監督學習和計算機視覺將人體顯微鏡下的數小時時間縮短為幾分鐘。超分辨率顯微鏡通常需要主題專家來評估樣本,ONI的系統自動化這些視覺檢查任務和解鎖超分辨率非專業用戶。
▲AI醫療影像識別
在最受關注的自動駕駛方面,美國各州繼續立法制定自動駕駛汽車政策。
▲美國超過一半的州已經制定了與自動駕駛車輛相關的法律
即便如此,無人駕駛汽車仍然不是那么無人駕駛:自2018年以來,加州66家擁有自動駕駛測試許可的公司中,只有3家獲準在沒有安全駕駛員的情況下進行測試。
即使在政策最為開放的加州,迄今為止自動駕駛汽車的行駛里程相比人類也是微不足道自動駕駛汽車公司在 2019 年的自動駕駛里程比 2018 年增加了 42%。但這僅相當于 2019 年有駕照加州駕駛員行駛里程的 0.000737%。
▲2018、19年加州人類和自動駕駛里程
自2019年7月以來,主要的自動駕駛公司在私人融資中籌集了近70億美元。
▲自動駕駛公司融資情況
值得一提的是,滴滴旗下自動駕駛業務從母公司剝離,募資5億美元。
▲滴滴自動駕駛
目前,自動駕駛系統中的大多數機器學習算法只專注于車輛周圍的事物,并基于工程量巨大的手寫規則。研究人員正在開發類似于 AlphaGo,學習大量人類駕駛經驗進行訓練的新算法。最近,Waymo、Uber 和 Lyft 都展示了模仿學習和逆強化學習的新技術。
自動駕駛等領域的發展也需求大量算力,Graphcore、英偉達等公司今年推出的新一代芯片成為了人們的希望。
另外,今年AI在保護人類免受電子郵件釣魚攻擊方面、計算機視覺檢測篡改身份文件、反洗錢和恐怖分子融資和經濟犯罪等方面也做出了不小的貢獻。
四、AI政策
倫理道德風險:一組研究人員花了數年時間幫助構建在某些敏感環境下使用深度的倫理風險。今年,這些問題成為主流。
比如,人臉識別現在就有很大的爭議,目前世界上有50%的國家允許使用人臉識別。只有3個國家(比利時、盧森堡、摩洛哥)部分禁止了這種技術,只允許在特定情況下使用。
▲人臉識別各國政策
科技巨頭們在人臉識別方面變得越來越謹慎。微軟刪除了擁有1000萬張臉的數據庫,這是目前最大的數據庫。數據庫中的人臉是從網上獲取,并沒有征得本人同意。
亞馬遜宣布暫停一年允許警方使用其面部識別工具Rekognition,以便“給國會足夠的時間來實施適當的規定”。
IBM宣布將淘汰通用面部識別產品。
在中國,出現了人臉識別第一案“郭兵”案。
并且,立法者們爭相立法禁止深度造假的使用。中國互聯網監管機構日前宣布,禁止發布和傳播通過人工智能創建的“假新聞”,并規定人工智能的使用也必須以顯著的方式進行明確標記。中國最高立法機構今年早些時候表示,正在考慮將深度造假技術定為非法。
加州通過了針對深度造假的ab730法案,該法案將傳播對政客言論或行為造成虛假、有害印象的音頻或視頻定為犯罪。
美國已經通過了許多其他州的法案,解決了不同的風險。維吉尼亞州的一項法律修改了現行的關于報復色情的刑法,將電腦生成的色情也包括在內。
除了民用方面,美國繼續在實施軍事人工智能系統方面進行重大投資。隨著機器學習技術的不斷工業化,軍方對其進行了越來越多的探索。然而,對現實世界的影響程度尚不清楚。
美國總務管理局和美國國防部聯合人工智能中心宣布授予博思艾倫漢密爾頓公司5年8億美元的任務訂單。簡報包括“數據標簽、數據管理、數據調理、人工智能產品開發,以及人工智能產品向新的和現有的部署程序和系統的過渡”。
認知電子戰是一個正在發展的領域,機器學習被用來分析敵人的信號和自動設計反應來擾亂他們的行動。美國陸軍授予洛克希德馬丁公司7500萬美元,用于制造一種可安裝在無人機或悍馬上的ML網絡/干擾吊艙。
在國防層面,還有更多與此相關的 AI 公司正在獲得豐厚的政府合同和風險投資。戴爾旗下 Pivotal 軟件公司獲得了美國國防部 1.21 億美元的合同,還有一些從事無人機、高分辨率衛星地圖、信息管理等業務的公司獲得了大量風險投資,例如 Anduril、Rebellion、Skydio。
谷歌正傾向于AI模型的公平性、可解釋性、私密性和安全性,并通過TensorFlow社區大量增加教育內容和工具。
▲谷歌AI責任
華為在智能手機領域的領導力越來越強,并且正大力投資機器學習技術。這是9年來第一次,除蘋果和三星之外,還有其他公司在引領市常然而,根據美國的制裁,到2020年9月中旬,華為的芯片供應將告罄。
使用美國芯片制造設備的外國公司將被要求在向華為供應某些芯片之前獲得美國的許可證。華為消費者部門總裁宣稱:“沒有芯片,就沒有供應”。
▲華為和三星手機產量
華為的麒麟 AI 芯片由臺積電代工,受到美國制裁政策影響,臺積電接受的最后一筆訂單是在 2020 年 5 月 15 日。目前,華為正嘗試向中芯國際(SMIC)尋求芯片制造方面的支持。中國政府又設立了一項290億美元的國家支持基金,以減少對美國半導體技術的依賴。并招聘了100多名臺積電工程師,以縮小與中國在半導體能力方面的差距。
五、未來預測
報告最后給出了未來十二個月的八大預測:
1、構建更大語言模型的競賽仍在繼續,我們即將見證一個的10萬億參數模型。
2、基于注意力的神經網絡將從 NLP 領域遷移到 CV 領域。
3、隨著母公司戰略的調整,一家大型企業的 AI業務即將關閉。
4、作為對美國國防部活動和美國軍事 AI 初創公司融資的回應,一部分中國和歐洲的國防 AI 企業將在未來的 12 個月內融資超過 1 億美元。
5、領先的AI優先藥物發現初創公司之一(如Recursion, Exscientia)要么首次公開募股,要么以超過10億美元的價格被收購。
6、DeepMind 將在結構生物學和藥物發現方面取得重大突破。
7、Facebook 將憑借 3D 計算機視覺技術在 AR 和 VR 上取得重大突破。
8、NVIDIA 最終不會完成對 Arm 的收購。
智東西認為,雖然2020年疫情對各行各業都產生的或多或少的影響,但今年AI的發展仍舊是如火如荼的進行著,各國尤其是中美兩大國的AI競爭仍舊十分激烈。在藥物研發、自動駕駛、圖像識別等方面,AI雖然遇到一些暫時的挫折,但整體態勢仍舊向好。但特別值得注意的是,美國今年在AI軍事應用的投入很大,這對未來的世界格局可能會產生重大影響。