Facebook詳細分享:用精確HRTF可擴展解決方案構建AR空間音頻未來
對于這項研究,Facebook德技術通訊經理麗莎·布朗·賈洛薩(Lisa Brown Jaloza)在一篇名為“音頻的未來”的博文對其進行了詳細介紹。下面是中國AI網的具體整理:
正如著名科幻作家阿瑟·克拉克所言:“任何卓越的先進技術都和魔法相差無幾。”我最近有幸見證了Facebook施展的最神奇魔術,而下面我將與大家一起分享個中的神奇。
但首先,我們先進行一定的背景介紹。
無論是甜美的愛人言語,抑或是激昂澎湃的歌曲樂章,聲音都包含著不同于其他感官體驗的豐富情感。然而,這種體驗常常會遭到噪音淹沒,因距離而減損,或因我們自身聽力的局限而喪失。
世界不需要是這樣。請想象這樣一個未來:穿戴一副vr頭顯或AR眼鏡后你將能運送到千里之外的地點,然后上課、上班或參加親戚的生日聚會,而一切仿佛就好像是現實生活一樣。這種體驗稱為“社交臨場”。今天的技術尚未實現這一承諾,部分原因是聲音不夠逼真。有多少次你因為嘈雜的背景而不得不重復自己的話語,或是因為分不清誰在說什么而感到糊里糊涂?
即便是身處同一地理位置,環境的類型同樣會影響人際關系的質量。嘈雜的背景會妨礙我們,令我們感到沮喪,或者最終不得不大喊大叫。現在想象一下,同樣的一副AR眼鏡能夠將你的聽力提升到全新的水平,允許你在諸如餐館、咖啡店和音樂會等嘈雜的空間里清晰地聽到你希望聽到的聲音。對于你的面對面交流,這將會產生什么影響呢?
Facebook Reality Labs Research(FRLR)正在構建增強現實和虛擬現實的未來。FRLR匯集了一支由研究科學家、工程師、設計師等組成的跨學科音頻團隊,并致力于通過激進的音頻創新來改善人類交流。這個小組的任務包括兩個:創造在感知方面無法與現實區分的虛擬音效;重新定義人類的聽覺能力。為了做到這一點,研究人員致力于提供兩種新功能:第一,音頻臨場感,亦即虛擬音效的來源仿佛是與聽者存在于同一空間,其保真度之高以至于你無法將真實世界的聲源區分開來;第二,感知超能力,亦即即便是在嘈雜的環境中,你將能夠將交流對方的音量調大,并對不需要的背景噪音調低,從而提升我們的交流體驗。
這支世界最大的音頻研究團隊之一正在探索各種相互關聯的研究問題。在短短六年的時間里,原本只有一個人的隊伍已經成長為世界級的專家團隊。由拉維什·梅赫拉(Ravish Mehra)領導的FRLR音頻研究團隊致力于解決新穎的研究問題,提出解決方案,并通過令人信服的體驗來證明它們。我有幸體驗了其中的一些體驗,而它們對未來音頻通信的影響十分驚人。這是一個關于未來通信的故事,并需要發明一套全新的硬件和軟件技術,從而提供逼真的具現體驗。
1. 耳聽為實:音頻臨場感
盡管小時候希望長大后能夠成為一名搖滾明星,但研究科學家帕布羅·霍夫曼(Pablo Hoffman)如今更接近于一名魔術師。他成功地開發了一個始終在線的音頻校準系統,并且可以有效地允許你通過一對耳機聽到超高保真度的聲音。這個演示采用了FRLR的全新算法和軟件處理技術,以及現成的硬件來展示個性化音頻和重現房間的聲學效果。
我坐在他位于華盛頓州雷德蒙德的辦公桌旁。霍夫曼遞給我一副耳機,而麥克風專門放到我耳朵的入口處。在接下來的兩分鐘里,所述麥克風將從我的視覺記錄房間的聲音。這位研究科學家從不同的地方大聲而溫柔地說話,他甚至會彈吉他,并且一度把鑰匙丟到我的身后。
然后霍夫曼播放了錄音。音效非常逼真,和真實幾乎沒有什么區別。事實上,對于坐在他旁邊的我而言,我敢打賭當我瞄到他的時候他一定有在說話。但當我正眼看著他時,我能看到霍夫曼的嘴唇沒有動。來自霍夫曼方向的聲音完全是人工合成。這是兩分鐘長的既視感(Deja-vu)。
這正是感知方面與現實無法區分的虛擬音效。當你親身見證的時候,它就像是一種為善的魔法。研究負責人菲利普·羅賓遜(Philip Robinson)解釋說:“‘感知方面無法區分’說起來十分簡單。但當你親耳聽到的時候,這會是一種無比神奇的感覺。”