造人工智能:除了大數據,還可“小樣本”
新華社北京電(記者全曉書郭宇靖)當你用手機訂餐、購物、打車,享受著移動互聯網帶來的各種便利時,您的這些生活數據,正為“人工智能”貢獻著力量。
香港科技大學計算機科學及工程學系講座教授兼系主任楊強說,說起人工智能,很多人可能對基于大數據的人工智能很熟悉,但其實還有基于小樣本的嘗試和遷移,這也是人工智能的一種路徑。
楊強指出,擁有大數據的人畢竟是少數,這樣發展下去,擁有數據越多的人,就能做出越好的人工智能產品,反過來,因為能提供更加便捷的服務,這些人又能吸引更多的用戶貢獻數據。如此循環,就會形成一些“數據寡頭”,進而成為“人工智能寡頭”。
“這會帶來復雜的社會問題。從技術上來講,小樣本的遷移學習提供了一個緩解問題的方案,可以讓初創公司在數據較少的領域也能提供人工智能的創新服務。”楊強說。
大數據的依賴
AlphaGo其實是個“笨小孩”
和天才的人類棋手相比,戰勝李世石的AlphaGo其實是個“笨小孩”,它觀摩和訓練的棋局數以千萬計,勝在了“勤能補拙”。
AlphaGo結合了深度學習、強化學習和蒙特卡洛樹搜索這三種算法,其中最主要的原理是深度學習。所謂深度學習,即搭建多層的人工神經網絡,通過輸入大數據來訓練它的方法。圍棋的大數據約從2000年開始積累,人們上網對弈的無數棋局逐漸匯聚成了人工智能的“啟蒙教材”。
事實上,目前各種風頭正勁的人工智能應用,都離不開基于大數據的深度學習。不過,楊強指出,數據需求量太大正是目前人工智能的一個顯著缺點。因為深度學習必須具備大數據,而經過學習訓練后的知識又很難遷移到新的領域,這也導致了計算機學習效率不高。
深度學習還要求一個數據要對應一個標注,即告訴計算機一張圖片或一段語音是什么意思,標注量的多少決定了人工智能的優劣。“在語音領域,你能標注1萬小時,而我能標注7萬小時,我就比你強。獲得這種標注,雖然技術含量不高,但需要投入大量的人力和時間,因此很昂貴,像谷歌、百度這些大公司都是花很多錢讓別的公司為他們標注數據。”楊強說。
擁有越多數據,就擁有越多資本,而投入越多資本,又會獲得越多標注的數據。“到時,所有的人工智能創新將全都集中在幾家大公司手里。做不做新的技術,做什么樣的新技術,全由這幾家公司說了算。”楊強說。
小樣本的嘗試
不必在每個領域都依賴大數據從頭學起
2005年,楊強提出了遷移學習的概念,目標是讓計算機把大數據領域習得的知識和方法遷移到數據不那么多的領域,這樣,計算機也可以“舉一反三”“觸類旁通”,而不必在每個領域都依賴大數據從頭學起。
在此之前,美國的科學家一直在嘗試類似“案例學習”的理論,然而發展了20多年,卻很難從實驗室進入工業領域。
2005年,微軟在其舉辦的世界數據挖掘大賽中出了一道關于搜索的題,當時搜索正是研究界最熱的話題。“我們去參賽了,用了遷移學習的方法,把機器在別的垂直領域的學習經驗遷移過來,完成了比賽作品,結果奪得了三項大獎的世界第一。”楊強回憶說。
“我們在海南種植了3000株基因各不相同的小米,然后把小米的基因、生長的外部環境以及收獲時的表型數據,比如顆粒飽滿度、葉子寬度等,建立一個對應的統計關系,并用機器學習的方法找出攜帶哪些基因的樣本生長得比較好。那么,下一次,到別的地方,我們希望用更少的作物、更短的時間就找出最佳的樣本。”
“與互聯網短時間內動輒上千萬上億的數據量相比,遷移學習非常適合這個案例,因為在不同的地方,如果總像撒胡椒面一樣種植幾千、幾萬個樣本,而且等作物成熟才能集齊數據,就耗時太長、花費太大了。”楊強說,未來遷移學習還可以應用在金融、醫療、客服等多個領域。
遷移的難點
沒有形成一個理論模型
那么,如何做到知識遷移呢?據楊強介紹,首先,針對一個新領域,科學家要建立一個本體,本體包含概念以及這些概念之間的關系,比如瓶子和水杯關系比較近,瓶子和汽車關系比較遠,諸如此類,把本體輸入計算機作為原始知識庫。然后,再對比訓練好的源領域和只有本體的新領域,找到兩個知識庫的相似之處,將源領域知識庫里沒用的部分去掉、有用的部分保留,就可以把一個很大的模型遷移到新的領域了。
楊強指出,遷移學習用在相近的領域,效果比較明顯。比如,國際象棋和中國象棋就比較相近,有部分棋子相同、走法相近,計算機學會了國際象棋,運用遷移學習的方法,只用觀摩較少的棋局,就可以學會中國象棋。但是,象棋和圍棋就相隔較遠,不適宜用遷移學習的方法。
楊強的學生也在研究兩個較遠領域之間的遷移嘗試,原理就好像摸著石頭過河,兩個石塊之間距離太遠,一步跨不過去,就在中間再鋪墊一些石塊,多跨幾步就過去了。“其實,人也是這樣,不可能學什么都一蹴而就。”楊強說。
不過,遷移學習目前也面臨很多困難,比如,衡量兩個領域遠近的標準還沒有完善;也沒有形成一個理論模型,告訴大家在運用這項技術時到底去除哪部分、遷移哪部分,現在只能一個項目一個項目地去研究,通用性較差。對此,一些篤信深度學習的業內人士認為,遷移學習并不是當前熱點,也未必能引領人工智能未來的發展。
“耐心一點,事在人為,誰敢說遷移學習不能給人工智能帶來美好的明天?”楊強說。