合久必分:分布式“機器學習”應運而生
從語音識別系統到自助停車等人工智能領域,“機器學習”的最新進展總能吸引大眾的眼球。
所謂機器學習,就是讓計算機在數據庫中搜索特定模型從而獲得新技能,以及讓自主機器人[-0.74%資金研報]對所處環境建立行為模型。但是,這種建模在集群機器人協同工作中變得非常復雜。這些機器人可能集體搜集到很完美的、但對單個機器人毫無用處的模型。
如果機器人由于動力、通信和運算的限制不能將所有數據整合到一起,它們怎么能完成共同建模?
據物理學家組織網近日報道,即將在7月份舉行的“人工智能的不確定性”研討會上,來自麻省理工學院信息與決策系統實驗室的研究人員,會解答上述問題。他們將展示一組運算方法,證明讓兩個間諜機器人共同搜索一棟建筑物,在它們經過大廳時,會彼此交換分析結果。
先分再合不“卡殼”
在這個實驗中,研究人員運用了分布式運算方案,這一方案優于目前流行的將數據聚合在單個位置的標準算法。
“單個計算機需要從巨型批處理數據庫學習建模以處理難題,但在糟糕的處理方案出現時,它們通常會卡殼。如果小數據塊被單個計算機預先處理再整合,最后建立的模型則很少出現卡殼現象。”麻省理工學院航空航天專業畢業生特雷沃·坎貝爾在與導師喬納森·豪爾·理查德·科克馬克勞林教授共同寫的一篇論文中總結道。坎貝爾的新算法是非常靈活的分散網絡學習程序。
想象一下,多個機器人在不熟悉的辦公空間中展開搜索,你會對坎貝爾和豪爾解決的問題有點感覺。如果這些機器人的學習程序在平均水平,它們不需要預先知道什么是椅子、什么是桌子或什么是一間會議室或辦公室。但是它們可以判斷出,有些房間包含一些小型椅子形狀的物品和大概同樣多桌子形狀的物品,而另一個房間包含大量椅子形狀的物品和一張桌子形狀的物品。
隨著時間的推移,每個機器人會根據自己搜索的房間和屋內物品建立自己的清單。但是也存在誤差:比如一個機器人碰巧進到一間會議室,會議室里有一些參觀人員留下的手提箱,從而總結出“手提箱”也是會議室的常規特征;另一個機器人可能進入廚房,而咖啡機被打開的冰箱門遮擋住,從而將咖啡壺從廚房用品的清單中刪除。
理想情況下,當兩個機器人相遇,它們會自動比較雙方的產品清單,加強對彼此的觀察,防止遺漏或以偏概全。問題是,它們不知道如何與“廚房”或“會議室”的類別標簽進行匹配,它們只能判斷出是“房間1”和“房間3”,但這個機器人的“房間1”很可能就是另一個機器人的“房間3”。
用坎貝爾和豪爾的算法,這些機器人會嘗試在共享物品清單的基礎上相互匹配類別,并盡全力合并有關聯物品的清單。當任意一個機器人遇見其他機器人時,都將執行相同的程序,最關鍵的是,每個機器人都是先獨立列出清單再去跟其他的機器人進行匹配,從而逐步構建更多和更精確的模型。
人工重建新“秩序”
研究人員在論文中呈現了上述看起來比較簡單的程序,但是這個簡單的程序背后,是一些相當復雜的數學分析。
“近年來,機器學習的方式是假設一個簡單的模型,然后用它來接近你想要的結果,當然前提條件是你能夠處理所有的細微差別和復雜性。”坎貝爾說,“我們的算法是一種人工重構,即在你成功解決簡單問題后,使用該人工重構恰當地合并模型。”
在實際應用中,機器人不會被指派去區分含有不同物品的房間,而更可能會被用來區分物品本身和用途。坎貝爾和豪爾的算法可以啟發“機器學習”面臨的其他問題。
此外,這個根據房屋內物品辨別房間的例子,類似于自然語言處理中的主題建模,即一臺計算機可以使用單詞的關聯頻率進行主題文件分類。
傳統的機器學習算法可以對所有存放在一個集中網址的所有文件采用一致的分類方案,但是坎貝爾和豪爾的算法,可以用分布式服務器將分散在網絡角落里的文檔集中在一個主題下進行建模。
“分布式計算在部署登陸機器人和空降機器人等多種機器人時將發揮關鍵作用。”杜克大學計算機工程和研究部副教務長勞倫斯·卡恩教授說,“在本文中提出的分布式運算方法既高效又實用,關鍵是它打破了貝葉斯推理中證明的對稱性。這個問題解決方案非常新穎,并很可能被其他研究人員繼續運用。”