人工智能應對困境,能夠正確趨利避害
人/陳根
選擇輕重,比較難易。 簡單的選擇只需要根據目標來判斷,而對于困境,則是一種更復雜的思考和選擇。 同時,困境也是人生的必經之路,是生物的本能。 在困境中探索生物學的大腦機制將為人工智能學習提供一種研究途徑。
近日,中科院自動化研究所大腦智能研究中心的研究人員提出了一種用于果蠅大腦自主決策的脈沖神經網絡模型,可以實現趨利避害的行為。 并在困境下迅速做出明確的選擇。 在無人機強化學習、反轉學習和困難決策任務中得到了有效的驗證。
具體而言,果蠅有兩條主要路徑:經驗線性選擇和非經驗非線性選擇。當面對選擇的任務時,果蠅針對不同的復雜性,自適應地選擇合適的路徑。
以前的研究已經教會果蠅喜歡綠色的T型,而藍色的T型伴隨著熱刺激的懲罰。 在選擇階段改變懲罰和視覺線索的組合,果蠅可以在綠色倒置T和藍色陽性T之間進行選擇,以測試果蠅在沖突視覺線索下的困境行為。
實驗表明,在不同的顏色強度下,通過計算飛行過程中果蠅在每個圖案前面的時間分布,了解果蠅的連續選擇行為,得到一條“S”選擇曲線。
通過單細胞測序發現,支持困境下非線性曲線的神經機制是負責多巴胺能神經元的“增益門控”決策機制-GABA神經元-蘑菇體環,這是一種基于價值的非線性選擇途徑。 果蠅,其蘑菇體受損,只能容納進行簡單的感性選擇,得到線性選擇曲線。
在本研究中,基于果蠅簡單知覺選擇(線性途徑)和價值選擇(非線性途徑)的神經機制,沖動神經網絡構建多腦協同選擇模型。 其中線性通路模擬中心復合體的記憶功能,以作出快速選擇。 非線性通路模擬了DA-GABA-MB環的增益門控機制。
隨后,將類似果蠅的脈沖神經網絡模型應用于無人機選擇任務,并使用小拳頭模擬懲罰信號。 無人機可以學習飛行到安全的視覺圖形。 而視覺圖形中包含的線索具有趨利避害的行為。 此外,無人機可以靈活地適應任務的反轉,只有在4次錯誤選擇后才能學習反向規則。
人工智能對人類智能的方法是其未來的趨勢,不僅在設定目標(有限游戲)的問題上,而且在自我進化和模仿生物直覺的能力上,同時享受人工智能帶來的便利。 還有更多關于人與智力的關系。 為機器而站立將成為人工智能時代不可避免的問題。