新的測試表明,缺乏常識仍然是人為的“智力遲鈍”
自然語言處理(NLP)最近取得了很大的進步,但人工智能理解它所讀的內容有多少? 據南加州大學計算機科學系的研究人員說,比我們想象的要少! 在最近的一篇論文中,向任助理教授和林玉晨博士發現,盡管人工智能取得了進步,但它仍然沒有產生合理句子所需的常識。
“目前的機器文本生成模型可以寫文章,讓很多人對自己感到不舒服,但他們基本上是在訓練階段看到的。” 林玉晨說:“我們的目標是研究最先進的文本生成模型是否能寫出一些句子來描述我們日常生活中的自然場景。 “
了解日常生活中的場景
例如,由最先進的模型生成的句子使用“狗,飛盤,扔,抓”這個詞“:
兩只狗互相扔飛盤。 “
這個測試是基于這樣的假設,即如果對常識的概念沒有更深的理解,就不能產生連貫的想法(在這個例子中應該是:“一個人扔飛盤,一只狗抓住它“)。 換句話說,常識不僅僅是對語言的正確理解,它意味著你不必在談話中解釋一切。 這也是開發可伸縮人工智能的一個基本挑戰——但學習在藝術世界之外,它也與消費者有關。
在不懂語言的情況下,基于這些最先進的自然語言模型構建的聊天機器人和語音助手很容易被揭示。 機器人是否能更多地出現在人類環境中也是至關重要的。 畢竟,如果你讓機器人加熱牛奶,你想讓它知道你想要的是一杯牛奶,而不是一整盒牛奶。
“我們的研究還表明,如果一個生成模型在我們的測試中表現得更好,它也可以有益于其他需要常識推理的應用,例如機器人學習。” 林宇晨說:“機器人需要了解我們日常生活中的自然場景,然后才能做出合理的行動與人互動。 “
一般測試
常識推理,利用世界基本知識進行推理的能力——就像狗不能互相扔飛盤一樣——幾十年來一直是人工智能研究者的障礙。一個最先進的深度學習模型現在可以達到90%的精度,所以NLP似乎接近它的目標。
然而,作為自然語言處理的專家,項仁和他的學生林玉晨需要更多的證據來證明這一統計的準確性。 他們的論文于11月16日在自然語言處理(EMNLP)經驗方法發現會議上發表,挑戰了基準的有效性,因此,挑戰了該領域取得的實際進展水平。
“人類通過學習理解和使用他們在周圍環境中認識到的共同概念來獲得造句的能力。” 林禹晨說道。
“獲得這種能力被認為是人類發展的一個重要里程碑。 但我們想測試機器是否真正獲得了產生常識的能力。 “
為了評估不同的機器型號,他們打開了限制的文本生成任務,稱為CommonGen,可以作為測試機器生成常識的基準。 研究人員展示了35141個概念和77449個句子的數據集。 他們發現,即使是表現最好的模型也只有31.6%的準確率,而人類的準確率為63.5。
令我們驚訝的是,這些模型不記得簡單的常識,即‘人們扔飛盤’應該比‘狗扔飛盤’更合理。” 林宇晨說:“我們發現即使是最強的T5模型,經過大數據集的訓練,仍然會犯愚蠢的錯誤。 “
研究人員說,以前的測試似乎沒有充分挑戰這些模型的常識能力,而是模仿他們在訓練階段看到的東西。
“以前的研究集中在區分常識上。” 項仁說:“他們用多項選擇題來測試機器,而機器的搜索空間很小——通常是四五個考生。 “
當然,答案是“B:辦公室。” 即使是計算機也能毫不費力地解決這個問題。 相比之下,生成環境更開放,例如CommonGen任務,需要模型從給定的概念生成一個自然句子。
向仁解釋說:“廣泛的模型訓練很容易在這些任務中有良好的表現。 與常識推理任務不同,我們的測試集中在機器常識的生成方面。 “
任和林希望這些數據集將來成為將常識引入自然的新標桿語言生成的研究是有益的。 事實上,他們甚至有一個排名來描述各種流行模型的分數,以幫助其他研究人員確定他們在未來項目中的可行性。
“機器人需要了解我們日常生活中的自然場景,然后才能做出合理的行動與人互動。” 林說。
我相信有一天,我們會在電影《她》中看到像薩曼莎(薩曼莎,斯嘉麗寡婦的聲音)這樣的人工智能特工,他們自然地做出反應,并與我們的生活互動。 “
編譯/未來經濟學家應用程序信息股
資料來源:
https://techxplore.com/news/2020-11-reveals-ai-lacks-common.html