人工智能學者張崢:AI落地的關鍵在于商業數字化的可能性
近日,由中國建設銀行投資有限公司打造的2020年“JIC講堂科技投資系列”第六期活動在中國建設投資書店舉行。
此次活動中,上海紐約大學計算機科學系終身教授、亞馬遜云服務上海人工智能研究所所長張崢與《經濟學人商論》執行主編陳武進行了主題為“人工智能產業的未來與挑戰”的內容豐富的對話。
當談到目前人工智能可以輔助人類寫作的事實時,張崢說,這是在數據量大幅增加后“努力創造奇跡”的結果。他說,人工智能的應用需要解決數據采集、數據清洗、數據洞察等問題。自動駕駛儀對于人工智能的應用來說是一個非常好的場景,但是需要在不同的場景和階段著陸。在談到數據安全和隱私的概念時,張崢認為“原本粗糙的數據積累會盡快結束”,并引入了數據安全和隱私新概念下的“聯邦學習”加密分布式學習技術。
人工智能寫作是“努力創造奇跡”的結果
陳武介紹說,《經濟學人》有一個熊彼特專欄,有15年的歷史,大約有1000篇文章。三年前編輯部做了一個實驗,把這1000篇文章放到機器里,讓機器人寫,結果是每一句都像英語,他們不知道自己在說什么。但是現在,三年后,機器人已經能夠寫出像樣的手稿了。
對此,張崢表示,這是“下大力氣創造奇跡”后數據量大幅增加的結果。
“我們給機器反饋了46 T數據,相當于幾百部100G手機的容量,還有1750億個參數需要慢慢調整。”張崢說,“近年來,人工智能在質量上有了一定的飛躍,所以越來越像‘人話’”。
目前,計算機已經能夠在寫作方面給人類一些幫助,但機器在使用詞匯時無法理解人類的情感和意義。
以目前各種應用中存在的詞匯聯想功能為例,張崢說,《紐約客》的一個作者做了一個實驗,他在給兒子寫郵件,寫著我很開心。事實上,他的初衷是我很高興,但機器給了他一個我很驕傲的暗示。
“這比他的初衷好得多。作為父親,他應該為兒子感到驕傲,而不是總是居高臨下。”張崢評論道,“但是機器實際上并不知道發生了什么。人彌補父親是不夠好的。”
人工智能落地的關鍵是商業數字化的可能性
張崢說,人工智能落地的關鍵是這項業務是否數字化。
他具體介紹了人工智能的應用需要解決三個問題:數據采集、數據清洗和數據洞察。人工智能能否登陸行業,取決于行業數字化改造的程度。如果一個行業已經數字化,嚴重依賴數據,人工智能可以更好的進入。其次,行業數字化后,需要注意數據的清理,因為得到的數據往往很粗糙,很嘈雜。最后,如何從非結構化數據中獲取結構是未來亟待解決的問題。因此,有前景的應用領域應該是那些已經實現了良好的數字轉換,并且能夠通過結構化將數據轉換為生產力的應用領域。
在談到自動駕駛行業時,張崢說,自動駕駛是人工智能應用的一個非常好的場景,但它需要在不同的場景和階段著陸。
陳武還表示,讓在街上行駛的汽車在3-5年內實現自動駕駛是不現實的,但在公園、高速公路和貨車上,變化可能會更快。他介紹,“硬件領域肯定有很多投資機會,所以會有不斷的需求,但真正的組合會是怎樣的新商業場景呢?風險很大。”
談隱私:原本粗糙的數據積累應該盡快結束
數據對于人工智能發展的重要性是毋庸置疑的。陳武援引李開復的話說,中國的人工智能和大數據在過去幾年發展如此迅速的原因是,無論是總量還是收集渠道,中國的數據都比美國大得多。
對此,張崢表示了自己的看法,稱“原始、粗糙的數據積累會盡快結束,而且會盡快好起來,不能亂來。我認為保護隱私是每個人的責任。
陳武指出,當用戶使用大量免費服務時,本質是為了一些方便的服務交換他們的行為信息,但這些數據應該屬于誰,手機上的行為信息是屬于這個App還是屬于用戶自己,這是中國、歐洲和美國正在討論的問題。
歐洲《通用數據保護條例(GDPR)》具體提出了兩個重要的方面,一個是數據的“可移植性”,比如當用戶不想使用某個社交網絡服務時,可以帶走過去形成的所有數據。另一種是數據的“遺忘權”,即過去在線分享的內容,用戶不想再保留就可以刪除。
在這種數據安全思想的指導下,張崢引入了新興的“聯邦學習”技術。
聯合學習是一種加密的分布式學習技術。每個參與者都可以在不公開底層數據和底層數據的加密(混亂)形式的情況下構建一個模型。適用于訓練數據對隱私敏感,訓練數據過大無法集中采集的情況。
張崢說,這種“聯邦學習的模式和數據彼此不信任,但它也能實現某種服務。有一定的妥協,質量可能會低一些,但是換來的是其他意義上的信任。
“JIC講堂”是中建投資集團通過調動優質智力資源,以中建投資書店文化空間為前沿陣地,匯集各方智慧和力量打造的優質講堂品牌。自2016年以來,“JIC講堂”共舉辦了70余場深度對話和思想交流,向社會分享前瞻性的視野和專業見解,提供理性分析和價值參考。它擁有100多個專家學者智庫,覆蓋中國頂尖大學和科研機構,吸引了學術界、工業界和公眾的關注。