人工智能聲吶眼鏡能精準識別唇語,準確度高達95%!
導讀美國康奈爾大學研究人員開發了一款聲吶眼鏡,它通過聲學感應和人工智能跟蹤嘴唇和嘴巴的動作,能連續識別多達31條無聲的命令,該
美國康奈爾大學研究人員開發了一款聲吶眼鏡,它通過聲學感應和人工智能跟蹤嘴唇和嘴巴的動作,能連續識別多達31條無聲的命令,該系統也能為一些暫時不方便講話或者無法發聲的人群提供幫助。
據介紹,這款眼鏡是一種名為EchoSpeech的無聲語音識別接口。該眼鏡配備了一對麥克風和比鉛筆橡皮擦還小的揚聲器,成為一個可穿戴的人工智能驅動的聲吶系統,在面部發送和接收聲波,并感知嘴巴的運動。然后,深度學習算法實時分析這些回聲輪廓,準確率約為95%。這款低功耗、可穿戴的眼鏡只需要幾分鐘的用戶訓練數據,即可識別命令并可在智能手機上運行。
EchoSpeech可用于在說話不放百納或者不合適的地方通過智能手機與他人交流,比如在嘈雜的餐廳或安靜的圖書館里。無聲語音界面還可與觸筆配對,并與CAD等設計軟件一起使用,全過程幾乎不需要鍵盤和鼠標。
研究人員表示,他們正在將聲吶技術“搬”到人體上。它體積小、功耗低、對隱私敏感,這些都是在現實世界中部署新的可穿戴技術的重要功能。無聲語音識別中的大多數技術都局限于一組選定的預定命令,需要用戶面部或佩戴攝像頭,這既不實用也不可行。可穿戴式攝像頭也存在重大的隱私問題,對用戶和與之互動的人來說都是如此。而像EchoSpeech這樣的聲學傳感技術消除了對可穿戴式攝像機的需求。
此外,由于音頻數據比圖像或視頻數據小得多,因此EchoSpeech只需更小的帶寬,通過藍牙實時傳輸到智能手機上,且數據在本地,不在云端,確保了敏感隱私信息安全。
對于這項研究,相關論文將在本月于德國漢堡舉行的計算機協會計算系統人為因素會議上發表。以上的功能實現也切實能為人們帶來一些福利,但對于隱私安全也要同樣重視起來,才能更好地造福社會。
免責聲明:本文章由會員“陳悅林”發布如果文章侵權,請聯系我們處理,本站僅提供信息存儲空間服務如因作品內容、版權和其他問題請于本站聯系