Facebook和Columbia已經啟動了實驗性AI框架,可以將音頻和視頻信息自由轉換為文本!
異讀:新智元通訊 基礎:外媒 編輯:keyu 【新智元異讀】 克日,來自Facebook、哥倫比亞大學等高等院校的接收人員開辟了一種無妨從視頻、對話汗青、音頻以及語音文本中天才高等次語義動靜的框架Vx2Text,該模型無妨用來精致動靜本質,并透徹地恢復聯系標題。 對于報酬...
新智元通訊
基礎:外媒
編輯:keyu
【新智元異讀】克日,來自Facebook、哥倫比亞大學等高等院校的接收人員開辟了一種無妨從視頻、對話汗青、音頻以及語音文本中天才高等次語義動靜的框架Vx2Text,該模型無妨用來精致動靜本質,并透徹地恢復聯系標題。
對于報酬智能來說,開辟一個能如實地輿解寰宇、并應用自然說話作出反應的對話體制是一個很大的調唆。
縱然要達到這一手段,那么我們需要一個無妨從圖像、文本、音頻和視頻中給予勝過動靜,并以生人無妨領略的方法恢復標題的模型。
邇來,Facebook、哥倫比亞大學、佐治亞理工科學院和達特茅斯大學的接收人員開辟了Vx2Text一個從視頻、語音大約音頻中天才文本的框架。她們傳播,比較之前的最超過的本事,Vx2Text無妨更好地創作表明翰墨并恢復標題。
輿論場合:
https://arxiv.org/pdf/2101.12059.pdf
與大普遍報酬智能體制各別,生人無妨很自然地質大學略領略文本、視頻、音頻和圖像在安排文語境中的含意:
比如,一些給定的文本和圖像,在劃分安置的工夫有如無害,比如“看看有好多人愛你”和一張貧瘠沙漠的圖片,然而,人們會頓時看法到,那些元素在貫穿在一切的工夫,從來是完備湮沒妨礙性的。
多模態深造無妨囊括一些湮沒互補的動靜大約趨勢,然而,只有在深造中十足囊括聯系動靜的工夫,那些含意本事表白。
對于Vx2Text,,“模態獨立“的分門別類器未來自視頻、文本或音頻的語義旗幟,變幻為群眾語義說話空間,這使得說話模型無妨徑直表白多模態數據,從而為過程谷歌的T5等洪大的說話模型舉行多模態融合即貫穿旗幟來輔助分門別類需要了大約。
圖:模型框架
Vx2Text中的天才式文本解碼器,將源代碼器安置的多模態個性別變化幻為文本,使該框架適合于天才自然說話語義精致,如次圖:
接收人員在輿論中寫道:“與之前的本事比較,這種安置不止大概得多,而且完備更好的天性。”
“更靈驗的是,它并不需要安置刻意的算法,大約剽竊其他包辦本事來舉行多模態動靜的籠絡”
在考查中,接收人員展示了Vx2Text為帶有視頻和音頻的視頻場景所天才的「真實的」自然文本。
縱然接收人員接收人員以對話汗青和語音記錄的情事,為模型需要了安排文,然而她們堤防到,天才的文本囊括了非文本情事的動靜,比如輔助或人輔助或人站起來大約接電話等舉措。
其余,由于Vx2Text無妨莫斯科大學安排、精致和如實領略多模態輸入中貯存的動靜,以是,基于天才的語義動靜,它也無妨恢復不拘一格的標題:
Vx2Text無妨用來財產界,比如,它無妨用來為流媒體視頻填補題目來縮小觀賞性。
其余,這個框架也大約會用來YouTube和Vimeo等視頻分割平臺那些平臺附麗字幕和其他動靜來普遍商量截至的聯系性。
接收人員表露:“我們的本事從將十足情事的動靜照射到語義說話空間的方法出發,來舉行直策應用洪大說話模型Transformer收集的手段,這使得我們的一切模型都無妨舉行端到端的演示。“
參考鏈接:
https://venturebeat.com/2021/02/02/researchers-vx2text-ai-framework-draws-inferences-from-videos-audio-and-text-to-generate-captions/