獨家|可能導致通用汽車在人工智能方面的下一個重大突破
導讀:郝凱倫翻譯:張藝蘭校對:歐陽進這篇文章2500字左右,建議閱讀8分鐘。 研究人員正在教一個大的語言模型如何看待它,以幫助他們更好地理解世界。 標簽:自然語言處理,計算機視覺,你可能聽過無數次我們說:它可以產生大規模的人類語言制品...郝凱倫:
張一然
校對:歐陽瑾
本文約2500字,建議閱讀8分鐘。
研究人員正在教授一種大型語言模型,以幫助他們更好地理解世界。
標簽:自然語言處理,計算機視覺
你可能聽過我們無數次地說這句話:一個大的人工智能模型,可以產生類似人類的語言GPT-3是一個奇跡和一個巨大的海市蜃樓。 你可以用一種簡單的技術來區分:問它的羊的顏色,它回答“黑色和rdquo;和“白色和rdquo一樣多;這反映了“害群之馬&這個短語出現在我們的日常語言中。
這是語言模型的一個問題,因為它們只訓練文本,缺乏常識。 一位來自北加利福尼亞大學的研究人員,教堂山設計了一種新的技術來解決這個問題。 他們把這種技術稱為voken化的能力,比如GPT3“look”。
這不是第一次嘗試將語言模型與計算機視覺結合起來,真實在國際上,這是一個快速發展的人工智能領域。 一個想法出現了,因為這兩種類型的人工智能都有不同的優勢。 像GPT-3這樣的語言模型是通過無監督學習來訓練的。 該過程不需要手動數據標記,因此易于擴展。 相反,像目標識別系統這樣的圖像模型可以更直接地從現實中學習。 換句話說,他們學到的并不取決于文本提供了什么。 他們可以從羊的照片中看到,它們實際上是白色的。
能夠解析語言和視覺輸入的AI模型也有非常實用的應用。 例如,如果我們要建立機器人助手,他們需要計算機視覺來導航世界和語言來與人類交流。
但結合兩種類型的人工智能說起來容易做起來難。 這不是簡單地將現有的語言模型綁定到現有的目標識別系統。它需要從一開始就使用包含文本和圖像的數據集來訓練新的模型,也稱為視覺語言數據集。
獲取此類數據集的最常見方法是收集帶有描述性標題的圖像集合。 例如,下面圖片的標題是“一只橙色的貓坐在一個準備打包的手提箱里。 這與典型的圖像數據集不同,它只使用一個名詞來標記下面的圖片,例如“Cat”。 因此,視覺語言數據集不僅可以教人工智能模型如何識別目標,而且還可以使用動詞和介詞來告訴模型目標如何相互作用和相互作用。
但是制作這個數據集是非常耗時的。 這就是為什么現有的可視化數據集如此瑣碎的原因。 常用的明文數據集,如英語維基百科(幾乎所有的英文維基百科條目),可能包含近30億個單詞。 像MS COCO這樣的視覺語言數據集只包含700萬。 根本沒有足夠的數據來訓練AI模型來提供有用的信息。
通過使用無監督的學習方法將MSCO中的少量數據擴展到英語維基百科,解決了這個問題。 在今天最難評估AI語言理解的測試中,由這個訓練集訓練的視覺語言模型優于最好的。
Thomas Wolfe(Thomas Wolf),自然語言處理啟動擁抱臉的聯合創始人和首席科學官說:“不要做大的改變,在這些測試中你不能超過最先進的水平。 這不是一個簡單的測試。 所以才這么刺激。 ”
令牌到Voken
首先,讓我們來整理一下這些術語是什么voken? 去
用于訓練人工智能語言語言模型的單詞稱為標記(令牌)。 因此,UNC的研究人員決定在視覺語言模型中調用與每個標記相關的圖像;。。 為每個令牌查找voken的算法稱為Vokenizer,整個過程稱為voken化。
這樣做不僅是為了顯示AI研究人員有多喜歡編造單詞。 (他們知道)。 它也有助于理解voken化背后的基本思想。 聯合國軍司令部的研究人員不會從圖像數據集開始,手動編寫句子作為一個標題(這是一個非常緩慢的過程),但從語言數據集開始,并使用無監督的學習將每個單詞與相關圖像匹配(稍后詳細介紹)。 這是一個高度可伸縮的過程。
因此,無監督學習技術是本文的最大貢獻,即如何為每個單詞找到相關圖像。
語言化
回到GPT-3。 GPT-3是變壓器語言模型家族的一員,2017年變壓器的出現帶來了重大突破,因為它將無監督學習應用于自然語言處理。變壓器通過觀察上下文中單詞的使用來學習人類語言的模式,然后根據上下文為每個單詞創建一個數學表示,稱為“單詞嵌入”1.例如,單詞“cat”的嵌入可能表明它經常被使用在單詞“meow”和&“橙色”周圍的單詞barkbluerdquo;。
這就是變壓器如何近似表達的意義,以及GPT-3如何寫類似人類的句子。 它在一定程度上依靠這些嵌入來告訴它如何將單詞組合成句子,將句子組合成段落。
有一種并行技術也可以用于圖像。 它不掃描文本以找到單詞使用模式,而是掃描圖像以找到視覺模式。 假設它列出了貓出現在床上而不是樹上的頻率,并使用這些上下文信息創建貓的嵌入。
聯合國軍司令部的研究人員認為他們應該在MS兩種嵌入技術都在COCO上使用。 它們將圖像轉換為視覺嵌入和標題轉換為單詞嵌入。 這些嵌入的真正微妙之處在于它們可以嵌入到三維空間中,并直接看到它們之間的關系。 與單詞嵌入密切相關的視覺嵌入在圖中顯示得更近。 換句話說,視覺嵌入(理論上)應該與基于文本的貓嵌入重疊。 很酷。
你應該看看下一步怎么走。 一旦所有嵌入都以圖形方式表示和比較并與其他嵌入相關聯,就很容易將圖像(Vokens)與單詞(令牌)匹配)。 很容易匹配。 記住,由于圖像和單詞根據它們的嵌入匹配,它們也在上下文中匹配。 當一個詞有完全不同的意思時,這可能是有用的。 這種技術通過為單詞的每個實例找到不同的voken成功地解決了這個問題。
例如:
這是她的聯系人。