一項新的測試表明AI仍然缺乏常識
指導語:盡管在自然語言處理方面取得了進步,但最先進的系統仍然會產生像兩只狗互相扔飛盤一樣的句子。 資料來源:Adriana Sanchez。 自然語言處理(NLP)最近取得了很大的進步,但是AI知道它讀什么? 南加州大學計算機科學系的研究人員說,這比我們想象的要少。 最近。。。
雖然自然語言處理已經改善,但最先進的系統仍然產生“兩只狗扔飛盤”這樣的句子。 資料來源:Adriana Sanchez。
自然語言處理(NLP)最近取得了很大的進步,但是AI知道它讀什么? 南加州大學計算機科學系的研究人員說,這比我們想象的要少。在最近的一篇論文中,任翔副教授和博士生林宇晨發現,盡管取得了進展,但人工智能仍然沒有產生似是而非的句子所需的常識。
目前的機器文本生成模型可以為許多人寫一篇令人信服的文章,他們基本上是在模仿他們在訓練階段看到的東西,林說,我們論文的目標是研究目前最先進的文本生成模型是否寫句子來描述我們日常生活中的自然場景。 ”他說;
了解日常生活中的場景
具體來說,任和林測試了模型的推理能力,表明目前的文本生成模型與人類的性能有很大的差距。 給定一組普通名詞和動詞,最先進的NLP計算機模型的任務是創建描述日常場景的可信句子。 雖然模型產生語法正確的句子,但它們通常在邏輯上是斷開的穿過。
例如,下面是一個使用現代模型生成的句子,如“狗、飛盤、投擲、捕獲;:
兩只狗互相扔飛盤。
測試是基于這樣的假設,即對常識概念的更深入理解不會產生連貫的想法(在這種情況下:“一個人扔飛盤,一只狗抓住它;)。 換句話說,常識不僅僅是對語言的正確理解,它意味著你不必在談話中解釋一切。 這是發展通用人工智能目標的根本挑戰,但除了學術界之外,它也與消費者相關。
如果不了解語言,基于這些最先進的自然語言模型的聊天機器人和語音助理很容易失敗。 機器人在人類環境中變得更加有效也是必不可少的。畢竟,如果你向機器人要熱牛奶,你希望它知道你想要一杯牛奶而不是整個紙箱。
我們還表明,如果一個世代模型在我們的測試中表現得更好,它也可以使其他需要常識推理的應用程序受益,例如機器人學習,“說機器人需要了解我們日常生活中的自然場景,然后才能采取合理的行動與人互動。 ”他說;
常識測試
常識推理,或者運用世界上基本知識進行推理的能力,比如狗不能互相扔飛盤,幾十年來一直抵制人工智能研究人員。 最先進的深度學習模型現在可以達到90%的精度,所以NLP似乎接近它的目標。
但是任,一個自然語言處理專家和他的學生林,需要更有說服力的這一統計的準確性。他的論文于11月16日在自然語言處理經驗方法會議上發表他們質疑基準的有效性,因此質疑這一領域的實際進展水平。
由最先進的文本生成模型生成的句子的例子。 來源:來自論文:“共同基因:產生常識推理的有限文本生成挑戰。
林說:“人類通過學習理解和使用他們在周圍環境中所識別的共同概念來獲得寫句子的能力。
獲得這種能力被認為是人類發展的一個重要里程碑。 然而,我們想測試機器是否真的能獲得這種生成常識推理的能力。
為了評估不同的機器模型,該組合開發了一個稱為CommonGen的受限文本生成任務,該任務可用作測試機器生成常識的基準。 研究人員提出了一個由35,141個與77,449個句子相關的概念組成的數據集。他們發現,即使是表現最好的模型也只有31.6%的準確率,而人類的準確率為63.5。
我們驚訝地發現,這些模型不能回憶起簡單的常識知識,即人類扔飛盤應該比狗扔飛盤更合理,我們發現即使是最強的模型,稱為T5,在大數據集上訓練后,仍然會犯愚蠢的錯誤。 ”他說;
研究人員說,以前的測試似乎沒有充分挑戰模型的常識,而是模仿他們在訓練階段看到的東西。
以前的研究主要集中在歧視性常識上。 他們測試的機器有多個選擇問題,其中機器的搜索空間很小,通常是四到五個候選。
例如,判別測試的典型設置是選擇題回答任務,如:“大人在哪里用膠棒;? A:教室B:辦公室C:辦公桌抽屜。
當然,這里的答案是“B:辦公室;。 即使是電腦也不必太麻煩而無法發現。 相反,生成設置更開放,例如CommonGen任務,其中需要模型從給定的概念生成自然句子。
通過廣泛的模型訓練,在這些任務上很容易表現良好,任先生解釋說。 與那些具有歧視性常識推理任務的測試不同,我們提出的測試集中在機器常識的生成方面。
任和林希望該數據集將作為未來將常識引入自然語言生成的研究的新基準。 事實上,他們甚至有一個排名圖表,描述了各種流行模型獲得的分數,以幫助其他研究人員確定他們未來項目的可行性。
在采取合理的行動與人互動之前,機器人需要了解我們日常生活中的自然場景。
通過向機器介紹常識和其他特定領域的知識,我相信有一天我們可以看到像薩曼莎這樣的人工智能特工在電影“她”中自然地做出反應,并與我們的生活互動。