機器人是怎么知道如何抓握杯子的?
機器之心分析師網絡
作者:Yuanyuan Li
編輯:Joni
如何推理一個物體的 Affordance 是機器人相關研究的一個重點關注方向。在具體的 Affordance 中,抓取(grasping)又是格外重要的一個功能。
前言
作為最早提出 Affordance 這一概念的學者,James Gibson 在他的書 [1] 中正式定義了 Affordance:
Affordance 是環境所允許個人能實現的功能(Affordance is what the environment offers the individual)。
不過 Affordance 所最為人知的定義應該是在他幾年后出版的書 [2] 中的定義:
Afford 是在字典中存在的一個詞,但 Affordance 不是。Affordance 是我個人創造出來的一個詞。Affordance 指代環境為動物 / 人類提供的一種功能。我想用這個詞來表達環境和動物 / 人類的互補性。
在中文語境下,Affordance 可以大致理解為物體 / 環境的直觀功能。雖然語意上比較難以理解,Affordance 卻是每個人在日常生活中下意識便會應用的技能。舉例來說,當人類看到一個馬克杯的時候,他 / 她立刻就能夠理解杯子是可以用來盛物體的不論是咖啡等液體還是固體并且馬克的杯柄可以被抓握。除此之外,假如人類看到茶杯、玻璃杯、酒杯等任何非馬克杯的物體,也不會因此而無法推斷該物體是否還能夠盛物體。人類幾乎天然就理解小型物體上的柄可以被抓握和應該從那個角度抓握。人類也可以輕易理解門上的把手是用來推或拉的,掛鉤上的鉤子是用來掛東西的、家用電器上的按鈕是用來按(或者扭)的。設計師在設計產品時也必須將物體的 Affordance (直觀功能)和如何引導用戶理解物體的 Affordance 納入考慮中。不信?請移步設計師 Katerina Kamprani 精心設計的「不舒服」的產品一覽究竟。
設計師 Katerina Kamprani 設計的一系列讓人感覺「不舒服」的產品,其實就是違反了一個物件應該有的 Affordance(圖源:https://www.theuncomfortable.com)
雖然 Affordance 是人類與生俱來的技能點,機器人卻沒有這樣的「運氣」。由于機器人本質上只是在運行人類開發的軟件而不能進行真正的推理至少目前還是這樣機器人對 Affordance 的理解取決于人類在這一領域的研究進展。實際上,機器人領域的研究已經證明了 Affordance 遠遠不止是只存在于書本中的心理學概念。具體來說,物體的抓取和操縱中,機器人需要通過視覺線索和經驗中學習周圍環境中物體的 Affordance,包括是否可以操縱物體、如何抓握物體以及學習操作對象以達到特定目標。
不難看出,如何推理一個物體的 Affordance 是相關研究的一個重點關注方向。在具體的 Affordance 中,抓取(grasping)又是格外重要的一個功能。這兩點將是本文的討論重點。
推理
推理(reasoning)Affordance 很好理解,即推斷一個物體的 Affordance 不論是通過視覺上的線索,還是通過過去的經驗知識。機器人需要理解有柄的物體可以抓握,帶有凹陷的物體可以盛物品。
推理物體的 Affordance 可以簡單分為推理單一物體的 Affordance 和推理多個物體的 Affordance。由于多個物體間可能存在互動 (interaction),Affordance 的推理很容易就會變得非常復雜。本文將集中于單一物體的 Affordance 推理。
兩個物體之間可能有互動(interaction),從而改變了物體的 Affordance。(圖源:https://www.theuncomfortable.com)
具體來說,學習推理單一物體 Affordance 的方法可以分為三類:通過模擬(simulation)、通過視覺特征(visual features)、和通過構建知識圖譜(knowledge graph)。
通過模擬(simulation)
在 [3] 中,Hongtao Wu 和 Gregory S. Chirikjian 利用模擬物體落入容器中的物理過程來對開放式容器即無蓋的容器,杯子、碗、碟等的容納性 (containability affordance)進行推理。還是用水杯舉例,當機器人面對一個水杯時,需要模擬從水杯上方傾倒物體的結果物體是會落到桌面上還是會落到水杯內?假如機器人面對的是一個沒有杯底的水杯,結果是什么?
整個實驗中,作者使用了一個具有抓握功能的機器手,并在其上安裝了 RGB-D 攝像機來對推理對象進行掃描。在 RGB-D 攝像機下有一個透明的平臺,被推理的物體將會被放置在其上。具體設置如下圖所示。
實驗設計(圖源:H. Wu, G. S. Chirikjian. (2020). Can I Pour into It? Robot Imagining Open Containability Affordance of Previously Unseen Objects via Physical Simulations. arXiv:2008.02321.)
實驗過程中,不同的物體會被隨機放置在透明平臺上,機器手會依次移動到 24 個預先設定好的位置上,利用腕上安裝的 RGB-D 攝像機捕獲場景的深度圖像。接下來作者使用 TSDF Fusion [12] 密集地重建場景。由于平臺是透明的,相機的深度傳感器不會捕捉到該平臺,被建模物體的 3D 重建會比較簡單 只要在重建的場景中剪切(crop)即可。生成的 3D 模型會被用于接下來的模擬中,如下圖中間所示,算法需要模擬類似于 M&M 豆大小的灰色的小顆粒物體向被推理對象掉落的物理過程,并計算究竟有多少顆粒會進入到該物體內并被容納以量化一個物體的容納性,即判斷一個物體是否是開放式容器。若模擬結果顯示被推理物體內不保有任何顆粒,則該物體不是開放式容器。在下圖例子中,算法對紙杯和一卷膠帶分別進行了模擬,結果顯示只有紙杯是開放式物體。若一個物體被判斷為開放式容器,機器手還會再次進行模擬,以推斷自己應該倒入的位置和方向,然后將之付諸于行動。
機器手對紙杯和膠帶的容納性進行推理。(圖源:H. Wu, G. S. Chirikjian. (2020). Can I Pour into It? Robot Imagining Open Containability Affordance of Previously Unseen Objects via Physical Simulations. arXiv:2008.02321.)
作者利用 11 個物體對整個模擬算法(以 Imagination 代指)進行了校準,然后將其與利用深度學習對 RGB 圖像進行學習的 AffordanceNet [11] 進行了比較。測試集包含 51 個物體23 個開放式容器和 28 個非開放式容器,測試表現用 accuracy 和 AUC (area under curve)進行衡量。下表中可以看出 AffordanceNet 和 作者所提出的模擬方法都在測試集上取得了非常好的表現。Imagination 的準確度稍差,主要是因為對被推理物體的 3D 建模不夠準確,從而導致生成的 3D 模型上出現了輕微凹陷,而凹陷部位可以容納小顆粒物體從而導致了物體被誤判為開放式容器。另一些失敗的情況則比較模棱兩可,如湯匙,這種爭議在人類標注者上也存在。另一方面,由于使用了 RGB-D 相機,Imagination 算法可以利用深度信息,這對推理和執行傾倒這個動作是有優勢的。作者在之后進行的一些實驗也證明了這一點。
利用模擬來對物體的 Affordance 進行學習的優勢主要在于可解釋度高、對未知物體的魯棒性好,難點則在于嵌入式開發中的硬件設施、計算能力、模擬算法的準確性等。比如本文的實驗中 (1)被推理物體需要一直處于深度傳感器的測量范圍內;(2)只能對物體的頂部和側面進行建模,因為無法機器手無法從被推理物體的下方進行掃描;(3)模擬算法模擬的是離散的剛性顆粒,其他物體比如水則具有完全不同的物理特性;(4)Affordance 的推理局限于物體的容納性,如果想要將該研究延伸到新的 Affordance 如物體的抓握性,則需要完全的不同的模擬算法。
通過視覺特征(visual features)
由于人類主要通過視覺線索對物體的 Affordance 進行推理,利用 RGB 照片建模的研究并不少見,比如前文提到的 AffordanceNet。隨著深度學習的流行,不少研究會訓練卷積神經網絡(CNN)來取代傳統的特征工程。[4] 就是典型的一例。這篇研究有意思的地方在于作者特意選擇了專家演示的視頻組成數據集,利用人類理解物體 Affordance 的線索訓練模型。如果 [4] 也使用的視頻中也有水杯,那么 CNN 就需要對專家演示中將茶水傾倒到水杯中和抓握杯柄將水杯端起來的片段理解水杯的容納功能和抓握功能。
專家演示的視頻來自互聯網上充斥著的大量的產品評論視頻 (product review videos),其中很多視頻中會有一名「專家」比如產品評論者通過對產品對象的一系列操作來詳細演示產品功能。除了為消費者們拔草種草外,這些視頻還為作者提供了新思路用這些視頻組成能夠為機器人提供有關 affordance 以及人們如何與產品交互的大規模、高質量數據。
產品評論視頻中往往有一名「專家」在對產品進行演示(圖源:K. Fang, T. Wu, D. Yang, S. Savarese and J. J. Lim. (2018) Demo2Vec: Reasoning Object Affordances from online Videos. IEEE/CVF Conference on Computer Vision and Pattern Recognition.)
這種方法雖然從邏輯上看非常可行,但卻面臨兩個挑戰:第一,這些視頻中的產品和機器人要面對的產品在外觀上可能有非常大的差異,如何保證機器人學到的 affordance 對產品外觀是穩健的;第二,在視頻中「專家」和產品的交互并不頻繁,比如在上圖例子中幾乎只有第三幀中「專家」有對產品進行操作,還是在有大量的背景信息下進行的,機器人需要在其中辨別并學習真正有用的信息。
作者提出的解決辦法是將模型(Demo2Vec)分解為演示編碼器(Demonstration encoder)和 affordance 預測器(affordance prediction),演示編碼器負責將演示視頻通過「演示嵌入」(demonstration embedding) 總結為了人類動作和被推理物體外觀的低維向量,這里的需要解決的問題主要是如何提取關于人與物體交互的有用視覺提示,如前文提到的,這種交互在視頻中比較稀疏 (「sparse」), 且存在許多其他無關物體。作者提出用卷積 LSTM 網絡(ConvLSTM)和 soft-attention 來組成演示編碼器。卷積 LSTM 網絡使用兩組信息作為輸入,一組是視頻幀,即正常的 RGB 圖像,另一組則是當前的視頻幀和前一幀的差值( x_t = x_t -x_)用以捕捉兩幀之間的動態變化, 從而捕捉手部動作的變化訊息。
接下來,卷積 LSTM 網絡的兩組輸出(RGB 特征和動態特征)將會被輸入到 soft attention 模塊中,最終得到的注意力權重會與 RGB 特征相乘,并對所有幀求和,從而生成 demonstration embedding。利用 demonstration embedding,affordance 預測器 (predictor)將知識轉移到目標圖像上預測被推理物體的交互區域和動作標簽。
(a)模型概述。Demo2Vec 模型由一個演示編碼器和一個 affordance 預測器組成。(b)演示編碼器。演示編碼器將輸入的演示視頻嵌入到低維向量,輸入圖像包括 RGB 圖像和 運動圖像 (motion modality),然后用 soft attention 將兩部分信息融合起來。affordance 預測器然后利用嵌入向量來預測目標圖像中展示的物體的 affordance 和熱力圖(heat map)。(圖源:K. Fang, T. Wu, D. Yang, S. Savarese and J. J. Lim. (2018) Demo2Vec: Reasoning Object Affordances from online Videos. IEEE/CVF Conference on Computer Vision and Pattern Recognition.)
訓練后的模型在面對同一個演示視頻的不同時段,根據演示者的不同操作會對同一個物體推理出不同的 affordance。在下圖給出的例子中,演示者在制作奶昔,并依次涉及到了四個 affordance:拿住(hold)、拿起(pick up)、推(push)、拿起(pick up)。該視頻被分為 4 個短片(由不同顏色表示),模型能夠正確的根據演示理解 affordance 并且識別每個 affordance 對應的部位。這和人類的表現更相似,能夠讓機器人更自然一些。
不同的演示可以令模型對同一物體推理出不同的 affordance(圖源:K. Fang, T. Wu, D. Yang, S. Savarese and J. J. Lim. (2018) Demo2Vec: Reasoning Object Affordances from online Videos. IEEE/CVF Conference on Computer Vision and Pattern Recognition.)
但是,不可避免地,當演示視頻中出現許多雜物或其他和被推理物體十分相似的物體時,模型很容易受到誤導。如下圖所示,演示人站在攝像機前占據了大部分畫面,并且遮擋了被推理物體,此時模型錯誤的將物體的 Affordance 預測為 Hold(如圖中紅色方框所示), 而實際上應該是 Rotate(如圖中綠色方框所示)。
當演示人遮擋了被推理物體時推理結果會出錯(圖源:K. Fang, T. Wu, D. Yang, S. Savarese and J. J. Lim. (2018) Demo2Vec: Reasoning Object Affordances from online Videos. IEEE/CVF Conference on Computer Vision and Pattern Recognition.)
此外,每次對物體的 affordance 進行判斷時,演示視頻是必不可少的。而人類只需要對演示視頻觀看幾次就能夠直接對未知物體進行推理。從這一點看利用模擬(simulation)的 [3] 的泛化能力要更好一點。但利用視覺線索仍然是最接近人類推理 Affordance 的方法之一。算力方面,根據模型的不同比如 [5] 直接用 RGB-D 圖像 3D 建模有可能對計算能力有很高的要求。
通過構建知識圖譜(knowledge graph)
可以看出,利用視覺信息 + CNN 的方法主要是試圖模擬人類學習 Affordance 的過程,但是由于 CNN 是黑箱模型,訓練出來的模型可解釋性差。除此之外,絕大多數訓練好的 CNN 本質上仍是一個分類器,因而其能夠推理的 Affordance 也局限于訓練數據所包含的 Affordance。使用構建知識庫的方法則不一樣,由于物品的各項特征都被單獨標記了出來用于最后的推理,模型在可解釋性方面更有優勢,使用基于知識的表示形式便于對學習范圍進行擴展。如果利用知識圖譜對水杯的 Affordance 進行學習,得到的規則可能是「有柄的物體可以被抓握,有開口并且有底的物體可以容納」。
[6] 利用圖像和其他元數據源中獲取物品的各種信息,然后使用馬爾可夫邏輯網絡(MLN)學習知識圖譜。在對未知物品進行推理時只依賴于已習得的知識庫而無需訓練單獨的分類器,包括 zero-shot affordance prediction。
作者通過從圖像以及諸如 Amazon 和 eBay 之類的在線文本源中提取信息來抽取物品的屬性和 Affordance, 然后從中學習知識圖譜。每一個物品都有三類屬性:視覺屬性(Visual attributes)、物理屬性(Physical attributes)和分類屬性(Categorical attributes)。視覺屬性對應于從視覺感知中獲得的信息,包括物品的形狀和材質等;物理屬性包括物體的重量和大小;分類屬性則反映物體所屬于的更抽象的類別,比如動物、機器、器械、電器等等。
相應地,每個物品也有三類標簽:Affordance 標簽、人體姿勢(Human poses)和人與物品的相對位置(Human-object relative locations)。后兩者分別用于描述人體的姿勢和人與物品交互過程中人與物體之間的空間關系。
在數據收集好之后,就可以利用馬爾可夫邏輯網絡(MLN)從中學習關系即通用規則的權重來構建知識圖譜。下圖可視化了作者所構建的知識圖譜的一部分。在下圖中,每個節點包含了某一類屬性或標簽,連接兩個節點的線段則代表兩個節點之間的邏輯公式比如既是 vehicle 又是 animal,MLN 需要學習相應的權重,其中正權重表示兩者可能同時出現,由綠色實線表示,負權重表示兩者是負相關的,由紅色虛線表示。在本例中 vehicle 和 animal 是由紅色虛線連接的,即兩者不大可能出現在同一物體上。
構造的 KB 的圖形化顯示。 (圖源:Zhu, Y., Fathi, A., & Fei-Fei, L. (2014). Reasoning about Object Affordances in a Knowledge base Representation. ECCV.)
在執行推理時,模型首先根據提供的圖像抽取物體的視覺屬性,然后推測其物理和分類屬性。利用這些屬性模型可以在習得的知識圖譜中對物體的 Affordance 進行查詢。下圖給出了 zero-shot affordance prediction 的例子。
zero shot affordance prediction 的推理過程。給定一個未知對象的圖像,模型通過 hierarchical model 估算對象屬性。這些屬性可作為知識圖譜查詢的線索,從而對 Affordance 進行預測,并估計人體姿勢和人體的相對位置。(圖源:Zhu, Y., Fathi, A., & Fei-Fei, L. (2014). Reasoning about Object Affordances in a Knowledge base Representation. ECCV.)
由于推理是運用多個線索綜合完成的,模型的穩健性較好,不容易出現缺少某一個屬性的信息就推理失敗的情況。靈活性也好,可以比較容易的對模型進行擴展。不便之處則在于模型的質量很大程度上依靠于知識圖譜的質量,而后者又依靠于數據集的質量。如果數據集中有很強的偏置(bias),比如紅色的物體剛好都可以被抓握,所生成的模型表現也會受到影響。
當然,許多研究會將上述的方法混合起來,比如 [9] 和 [10] 就使用了 CNN 抽取特征用于構建知識圖譜。
抓握(grasping)
抓握(grasping)是人類生活最常用到的動作之一,而機器人的任務就是根據已經學習過的物體推斷未知物體的 grasping affordance,即一個物體是否能被抓握。抓握和推理任務在一定程度上有重合。在機器人領域內,有很多研究會將推斷物體是否能被抓握和識別物體具體能夠被抓握的位置放在一個學習任務中。另一方面,抓握也可以分為學習 simple-task affordance 和 task-specific affordance。本文的重點會更偏向于推理未知物體能否被抓握,借用 zero-shot learning 的概念在上文中的知識圖譜中也有簡要提到這一領域也被叫做 zero-shot (grasp) affordance。這也算是推理抓握功能的難點之一,其他難點還包括實時推理、數據收集等。
早期的一些研究會利用本地特征抽取器(local feature extractors )來學習一個物體是否能被抓握,如 [7]。雖然隨著深度學習的流行手工設計的特征已經不再吃香,這篇文章還是在一定程度上解決了如何面對未知物體的問題:只尋找物體上是否有具有已知能夠抓握的部位。[8] 則使用了神經網絡來判斷一個物體可能的 Affordance,包括正面吸取(suction down)、側面吸取(suction side)、抓握(grasp down)和齊平抓握(flush grasp)。四種 Affordance 如下圖所示,抓握和齊平抓握的區別主要是后者具有在目標對象和墻壁之間滑動一根手指的附加行為。
神經網絡需要學習的四種 Affordance(圖源:Zeng, A., Song, S., Yu, K.-T., Donlon, E., Hogan, F. R., Bauza, M., Ma, D., Taylor, O., Liu, M., Romo, E., Fazeli, N., Alet, F., Chavan Dafle, N., Holladay, R., Morona, I., Nair, P. Q., Green, D., Taylor, I., Liu, W., … Rodriguez, A. (2019). Robotic pick-and-place of novel objects in clutter with multi-affordance grasping and cross-domain image matching. The International Journal of Robotics Research.)
在訓練過程中,作者使用到兩個全卷積殘差網絡(FCN) ResNet101 中分別判斷物體的吸取和抓握的 Affordance。為判斷物體是否能夠被吸取,下圖中上排的 FCN 使用多視角 RGB-D 圖像作為輸入,然后對每個像素的 吸取 Affordance 進行預測,預測值越接近 1,則代表該部位越容易被吸齲隨后,模型需要將所有視角的的預測匯集到 3D 點云(3D point cloud)上。
圖中下排的 FCN 則負責抓握 Affordance 的推理。作者假設一個物體可抓握與否取決于該物體是否有可抓握區域,并且可抓握區域可以從物體具備的幾何形狀和外觀推斷,即 [7] 的思想。首先,RGB-D 圖像將被合并到場景的正交 RGB-D 高度圖(orthographic RGB-D heightmap)中,來生成場景的高度圖。圖中的每個像素代表垂直方向即重力方向上的 2mm*2mm 的空間。FCN 需要對圖中的每個像素的抓握 Affordance 進行判斷(0-1 的概率),由于作者假設機器手的位置是與生成的高度圖在垂直方向上平行的,生成的 Affordance heatmap 可以直接用于機器手在該方向上抓握該物體某一個部位的可能性。通過將高度旋轉 16 次到不同的角度,并用 FCN 對其進行預測,則可以得出在不同方向上對該物體抓握的可能性,即預測結果直接包含了 16 種不同的自上而下的抓取角度的概率圖。
在后處理(post-processing)時,根據最佳抓握點在生成的 3D 點云中的位置,算法會計算機器手兩根手指的最佳寬度。同時,如果最佳抓握點過于靠近墻壁,算法會推薦執行齊平抓握,否則執行一般的抓握。
作者所提出的神經網絡訓練流程(圖源:Zeng, A., Song, S., Yu, K.-T., Donlon, E., Hogan, F. R., Bauza, M., Ma, D., Taylor, O., Liu, M., Romo, E., Fazeli, N., Alet, F., Chavan Dafle, N., Holladay, R., Morona, I., Nair, P. Q., Green, D., Taylor, I., Liu, W., … Rodriguez, A. (2019). Robotic pick-and-place of novel objects in clutter with multi-affordance grasping and cross-domain image matching. The International Journal of Robotics Research.)
由于在進行推理時,訓練好的神經網絡有可能遇到未知的物體,作者提出了跨領域圖像匹配(cross-domain image matching)模型來通過通過檢索一組產品圖像中的最佳匹配來解決此識別問題。該模型由兩組 ConvNet (two-stream ConvNet)組成,一個用來對已知的圖像計算 2048 維特征,另一個則為用于檢索的圖像即未知物品的圖像計算 2048 維特征。在訓練時作者從已知的物體中提供一系列匹配和不匹配的圖像對來提供平衡的正例和反例,然后用 Triplet Loss 作為損失函數。這樣可以有效地優化網絡,從而最大程度地減小匹配對特征之間的 l2 距離,同時拉開不匹配對特征之間的 l2 距離。在測試過程中,已知對象和未知對象的圖像都被映射到公共特征空間上,模型通過將觀察到的圖像映射到相同的特征空間并找到可能性最高的匹配來識別它們。本質上[8] 是把未知物體的推理簡化成了搜索任務。
未知物體的識別框架(圖源:Zeng, A., Song, S., Yu, K.-T., Donlon, E., Hogan, F. R., Bauza, M., Ma, D., Taylor, O., Liu, M., Romo, E., Fazeli, N., Alet, F., Chavan Dafle, N., Holladay, R., Morona, I., Nair, P. Q., Green, D., Taylor, I., Liu, W., … Rodriguez, A. (2019). Robotic pick-and-place of novel objects in clutter with multi-affordance grasping and cross-domain image matching. The International Journal of Robotics Research.)
[9] 和 [6] 有一定相似度,但 [9] 中的 CNN 是為了構建知識圖譜然后用 MLN 進行學習而服務的。其提出的模型如下圖所示,在學習階段(紫色方框)根據已經給出的一系列物體屬性、抓握功能 以及依次創造出的規則(rules),作者使用 MLN 來學習物品的屬性、位置和抓握功能之間的語意關系。學習完成后得到白色方框內所示例的知識圖譜。在推理階段(藍色方框),作者使用預訓練卷積神經網絡(CNN)從被推理的 RGB 圖像中提取被推理物品的屬性,即形狀、紋理、材料、位置等。為了從訓練好的知識圖譜中查詢具體的抓握功能,作者使用吉布斯抽樣(Gibbs sampling),在計算量允許的情況下遍歷盡可能多的可能性來生成后驗樣本。
[9]中的抓握功能推理框架,由學習(learn),查詢(query)和映射(mapping)組成。學習的模型(由白色矩形標注)使用彩色線段對節點之間的關系進行編碼(圖源:Ardón P., Pairet . , Petrick R. P. A. , Ramamoorthy S. and Lohan K. S. (2019). Learning Grasp Affordance Reasoning Through Semantic Relations. IEEE Robotics and Automation Letters, vol. 4, no. 4, pp. 4571-4578.)
相對于 [6], [9] 專注于解決抓握功能的推理,同時對其進行了很多細分。在此之后, [9] 將一組細分后的掌握功能與一個物體相關聯。下圖描繪了在不同室內場景中,不同形狀的物體可能對應的抓握功能。三個箭頭按照顏色代表物體上不同位置更可能或更不可能擁有的抓握功能。所有的可能性都已經經過了歸一化處理,在(+1,-1)內分布,數值越高,則代表可能性越大。
有趣的是,可以看到,在不同的抓握功能中,與性狀最無關的功能是移交(hand over)。而其他功能,如盛納(contain)則與物體的形狀關聯度很大。開放式容器更有可能具有盛納功能而其他形狀如螺絲刀等則最不可能具有盛納功能。
對物體的形狀和抓握功能之間的可能性進行可視化(圖源:Ardón P., Pairet . , Petrick R. P. A. , Ramamoorthy S. and Lohan K. S. (2019). Learning Grasp Affordance Reasoning Through Semantic Relations. IEEE Robotics and Automation Letters, vol. 4, no. 4, pp. 4571-4578.)
結論
不難看出,Affordance 的研究重點之一是發展機器人的泛化能力。正如人類能夠對形狀明顯不同但 Affordance 相同的物體比如玻璃杯 vs 葡萄酒杯成功進行推理,同時還不會混淆形狀相同但 Affordance 不同的物體,比如杯子和蠟燭。我們離人類的水平目前還有一段距離,但得益于深度學習的發展,Affordance 的推理也取得了很多突破。特別是 CNN 結合知識圖譜的路線,已經提供不少非常有希望的結果。
但另一方面,硬件仍然是這個領域內的一個挑戰。相較于普通的視覺任務(vision task),深度信息對于 Affordance 的學習至關重要。想象一下上文中兩個杯子交纏的例子,若沒有深度信息模型就無法正確推理。雖然這個例子比較極端,但當機器人需要和真實世界一個有很多靜止和非靜止物體的世界進行交互時,深度信息絕對是必不可少的。此外,如果模型不能被部署在云端上,算力也是對目前機器人身上的硬件的一個挑戰。使用模擬或者使用神經網絡,這兩個方法對算力的要求都比較高,并且很多研究在推理并定位了 Affordance 還需要將結果投射到 3D 模型上,又進一步加大了硬件算力方面的挑戰。
總的來說,筆者對機器人這一領域的發展充滿信心,期待能夠盡快看到更多研究上的突破落實到實際生產中。也許在不遠的將來,我們就能在海底撈看到機器人服務員為你端茶倒水、為你表演扯面了呢 :-)
參考文獻
[1] J. J. Gibson (1966). The Senses Considered as Perceptual Systems. Allen and Unwin, London.
[2] J. J. Gibson (1975). 'Affordances and behavior'. In E. S. Reed & R. Jones (eds.), Reasons for Realism: Selected Essays of James J. Gibson, pp. 410-411. Lawrence Erlbaum, Hillsdale, NJ, 1 edn.
[3] H. Wu, G. S. Chirikjian. (2020). Can I Pour into It? Robot Imagining Open Containability Affordance of Previously Unseen Objects via Physical Simulations. arXiv:2008.02321.
[4] K. Fang, T. Wu, D. Yang, S. Savarese and J. J. Lim. (2018). Demo2Vec: Reasoning Object Affordances from online Videos. IEEE/CVF Conference on Computer Vision and Pattern Recognition.
[5] Y. Zhu, C. Jiang, Y. Zhao, D. Terzopoulos, and S.-C. Zhu.(2016). Inferring forces and learning human utilities from videos. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 38233833.
[6] Zhu, Y., Fathi, A., & Fei-Fei, L. (2014). Reasoning about Object Affordances in a Knowledge base Representation. ECCV.
[7] Montesano L. and Lopes M. (2009).,Learning grasping affordances from local visual descriptors. 2009 IEEE 8th International Conference on Development and Learning
[8] Zeng, A., Song, S., Yu, K.-T., Donlon, E., Hogan, F. R., Bauza, M., Ma, D., Taylor, O., Liu, M., Romo, E., Fazeli, N., Alet, F., Chavan Dafle, N., Holladay, R., Morona, I., Nair, P. Q., Green, D., Taylor, I., Liu, W., … Rodriguez, A. (2019). Robotic pick-and-place of novel objects in clutter with multi-affordance grasping and cross-domain image matching. The International Journal of Robotics Research.
[9] Ardón P., Pairet . , Petrick R. P. A. , Ramamoorthy S. and Lohan K. S. (2019). Learning Grasp Affordance Reasoning Through Semantic Relations. IEEE Robotics and Automation Letters, vol. 4, no. 4, pp. 4571-4578.
[10] Ardón P., Pairet ., Petrick R., Ramamoorthy S., Lohan K. (2019) Reasoning on Grasp-Action Affordances. Towards Autonomous Robotic Systems. TAROS 2019. Lecture Notes in Computer Science, vol 11649.
[11] Do, T.-T., Anh N., and Ian R. (2018). Affordancenet: An end-to-end deep learning approach for object affordance detection. 2018 IEEE international conference on robotics and automation (ICRA).
[12] B. Curless and M. Levoy. (1996) A volumetric method for building complex models from range images. Proceedings of the 23rd annual conference on Computer graphics and interactive techniques, pp. 303312.
分析師介紹:
本文作者為Yuanyuan Li。幾次轉行,本科國際貿易,研究生轉向統計,畢業后留在比利時,從事農用機械研發工作,主要負責圖像處理,實現計算機視覺算法的落地。欣賞一切簡單、優雅但有效的算法,試圖在深度學習的簇擁者和懷疑者之間找到一個平衡。
關于機器之心全球分析師網絡 Synced Global Analyst Network
機器之心全球分析師網絡是由機器之心發起的全球性人工智能專業知識共享網絡。在過去的四年里,已有數百名來自全球各地的 AI 領域專業學生學者、工程專家、業務專家,利用自己的學業工作之余的閑暇時間,通過線上分享、專欄解讀、知識庫構建、報告發布、評測及項目咨詢等形式與全球 AI 社區共享自己的研究思路、工程經驗及行業洞察等專業知識,并從中獲得了自身的能力成長、經驗積累及職業發展。