從認知和系統任務的角度來看待人工智能的發展問題

近年來,人工智能戰勝了圍棋世界冠軍以及頂級撲克玩家,并且在機器翻譯、目標分類、語音識別等領域取得了卓越的進步。然而,大多數的人工智能系統關注點都相當局限。圍棋冠軍“棋手”AlphaGo并不知道圍棋是通過將棋子放在棋盤上來下的,也不知道棋子和棋盤是什么。當你給它一個長方形棋盤來代替正方形格子棋盤時,它需要從頭開始接受訓練。要讓人工智能理解開放語境或運轉家用多功能機器人,我們還有很長的路要走。在理解能力和靈活思考方面,人類大腦依舊遠遠勝過機器,因此觀察人類大腦就是一個好的著眼點。
通常,人們會提出簡單的理論:從行為主義到貝葉斯推理再到深度學習,據說這些理論可以解釋一切人工智能。但是,引用費爾斯通(Firestone)和肖勒(Scholl)的話說,“大腦沒有單一的運轉模式,因為大腦不是由一個東西組成的。相反,大腦可以分為不同的部分,并且每個部分的運轉方式都不同。大腦辨別顏色區別于計劃假期,并且與理解句子、移動四肢、記憶事實和感受情感都不同。”人腦極其復雜且多樣,它擁有150多個可清晰識別的大腦區域,大約860億個神經元,沒有上千種也有幾百種不同的類型,萬億個突觸,每個突觸中都有數百種不同的蛋白質。真正智能且靈活的系統就像大腦一樣充滿了復雜性。任何一種旨在將智能減少到單一原則或者單一“主算法”的理論都必定是失敗的。
傳統的人工智能通常側重于深層含義表示(internal representations),例如:為了呈現肯尼迪(Kennedy)總統1963年訪問柏林的著名事件,人們會添加一系列事實,比如“地區(柏林,德國)”,“訪問(肯尼迪,柏林,1963年6月)”。知識是由這些表達積累而成的,而推論則建立在這一基礎之上。在此基礎之上可以輕松推斷肯尼迪訪問了德國。
目前,深度學習嘗試用一堆矢量來粗略地解釋這一點,這些矢量以一種粗糙的方式捕獲了一些正在發生的事情,卻根本無法直接表示其意義。沒有一種特定的方式來代表發生過“訪問(肯尼迪,柏林,1963)”,或者“地區(柏林,德國)”,所有的事情都只是粗略的相似。深度學習目前在推理以及論證上遇到了困難,因為它不是用于表達精確的現實知識,一旦事實模糊,就很難得到正確的推理。被大肆炒作的GPT-3就是一個很好的例子。相關的系統BERT也不能可靠地回答諸如“如果將兩個獎杯放在一張桌子上然后再增加一個,現在有多少個?”這樣的問題。
人類認知是一種復雜的智慧,其中數十種或數百種不同的“行為主體”各自專門處理不同類別的任務。例如:喝一杯茶需要抓握主體、平衡主體、口渴機體和一些移動機體相互作用來完成。進化發展心理學中的許多內容都指向了同一個方向:心智不是單一的事情,而是很多。
具有諷刺意味的是,這幾乎和當前機器學習的趨勢相反,機器學習傾向于端對端模型,使用單一的同類型機制,幾乎沒有內部結構。Nvidia 2016年的駕駛模型就是一個例子,該模型放棄了感知、預測和決策等經典模塊。取而代之的是,它采用了一種單一的、相對統一的神經網絡來學習輸入(像素)與一組輸出(轉向和加速指令)之間的直接相關性。這類事情的擁護者指出了“聯合”構造整個系統而不是對每個模塊單獨訓練的優勢。如果我們可以用非常簡便的方式構建一個大型網絡,為什么要花很多時間去構造單獨的模塊呢?問題是這樣的系統很難調試,并且很難具有我們所需的靈活性。Nvidia的系統在人類駕駛員的干預下通常只能正常工作幾個小時,而不是幾千個小時。人類駕駛可以從A點導航到B點并處理車道變更,而Nvidia所能做的就是在一條車道上走直線。
當頂尖的人工智能開發者想要解決復雜的問題時,他們經常使用一些混合系統。要在圍棋比賽中取得勝利,需要將深度學習、強化學習、游戲樹搜索和蒙特卡洛搜索相結合。例如Siri之類的問答機器人以及網絡搜索引擎使用“廚房水槽”方法,都集成了許多不同類型的處理。因此,要真正實現人類智慧需要將更多的任務要求,以及更為系統化的機器學習來實現才行。