專訪騰訊多媒體實驗室商世東:咬咬牙也要跟上新版本的發布
(Photo by Sergey)
受疫情影響,遠程協同辦公軟件市場爆發,騰訊會議上線兩個月內日活超千萬,在如此高并發流量沖擊下,騰訊會議保持了清晰流暢的語音服務。近日,騰訊多媒體實驗室高級總監商世東接受LiveVideoStack專訪,圍繞騰訊會議及其背后的故事進行了分享。
以下為采訪實錄:
1. 選擇
離開杜比從來都不是一個困難的決定
剛剛畢業的時候,我在摩托羅拉做音頻方面的工作,一做就是將近十年的時間。2010年,我去了杜比實驗室,算起來是國內入職杜比研發團隊的第二個員工。當時負責整個杜比中國的工程團隊,差不多有五六十個人的規模。后來我又去了杜比澳大利亞,再后來,也就是2019年1月,我加入了騰訊多媒體實驗室,在音頻技術中心負責整個音頻團隊的建設、產品的技術路線規劃、技術的交互以及負責對多個產品,包括騰訊會議在內的端到端的音頻體驗,現在團隊(音頻)大概有20個人。
對我來說,首先,在杜比這樣的業界領先公司工作,我學習到了很多,國際化的視野、前瞻性的技術布局、完整的思維體系、團隊建設等等,這些都是讓我終身獲益的東西。
但離開杜比并不是一個非常困難的決定,這其中大環境、小環境的原因都有一些。我后來回顧了一下,最重要的原因還是在于杜比的主要業務是在傳統領域,成長速度不盡人意。作為一家主要做技術授權業務的公司,它沒有最終面對消費者的產品,相對而言公司規模也比較小,對整個生態的影響有限,很難有一個全面的把握。
換一種說法,這其中有很多的東西是個人想要但是平臺無法給與的,個人成長容易碰到天花板,想要向上突破的時候,公司已經不能給自己提供這樣的平臺了。就這方面而言的話,在騰訊,天花板幾乎不存在,在這里,只要有能力、有潛力、有愿望,個人擁有持續不斷的提升空間,并且可以在這個無限上升的空間里做到最好,這對我來說是非常重要的一點。
在騰訊面臨的用戶數量,以前在杜比的時候是想都不敢想的。現在一天會有千萬級DAU的產品,可以看到自己開發的產品在整個市場上遇到各種意想不到的困難、挑戰、問題以及機會。
現在我們很大一部分的精力放在騰訊會議上,通過種種技術對用戶使用場景進行分析并通過統計數據的上報、分析,了解用戶可能遇到的問題并快速加以解決。
2. 改變
需要更多的思考與更確定的答案
(Photo by Sergey)
以前我們做視頻會議,考慮會議中的語音質量提升和評估的出發點都是要求對標或者超越電話(典型的比如電話話筒終端),這個是典型的雙人通話場景,但是現在我們也發現視頻會議大量的場景都是圍繞多人的、多地的聯合辦公場景。以前基于電信行業終端(電話話筒為主要語音設備)定義的完整的語音質量體系需要重新審視和演進來滿足現在用戶的需求。簡單地說,會議軟件是從模仿打電話的體驗開始的,雖然從使用方式、使用場景、使用時間等等角度來看,多樣性已經遠遠超過了電話。而且,僅僅倆人打電話是不夠的,我們要一個小組打電話,光打電話還不夠,還要分享視頻、分享屏幕、圖片和文檔。從國際標準,比如ITU-T的演進路線圖來看,制訂的通話標準,也不斷的從雙人通話向多人、跨地區的實時、強交互場景演進。
會議當中關鍵的語音體驗簡單的來說,可以從三個維度來衡量,語音通信的可懂度,語音自然度/保真度和語音舒適度。從這三方面來說,在多人會議中面臨的挑戰明顯要多于雙人。
比如多人通話采集設備的多樣性。兩個人的時候當然很好協調,人多了以后采集設備如何配置,以及采集的音質、采樣率、比特率;在多人場景里面音頻編解碼的接入配置,到底是寬帶還是超寬帶,最簡單的辦法就是所有的配置都按照最好的來,但是這樣對系統資源的占用是最高的。同時因為對系統資源的占用最高,會帶來總體體驗的下降。
那么如何動態來在多種因素中平衡,保證多人語音通信的綜合體驗在三個維度上有最優的均衡,就變成一個很有挑戰性的課題。
同時,不同場景的網絡環境也不一樣。你的網絡、我的網絡,可能還有第三個、第四個人的網絡,有的人使用有線網絡、有的則是WiFi,有的是4G,帶寬差異巨大,網絡QoS也參差不齊,這時候如何有效的探測網絡實際帶寬,進而高效的進行流控管理,在多人場景下的復雜度遠遠高于雙人。
所以,綜上所述,一旦開始考慮多人參會的因素,你會發現,在兩人通話的情形下討論的音質體驗、QoS、QoE等等問題,現在要重新思考答案。這在國際上當前也是很熱的領域,大家也都在探索答案。
對于整個視頻會議體驗來說,或者對于用戶體驗來說,這不是一個單一的因素或者指標就可以決定的。之前我們有針對網絡規劃的常見QoS三個指標,丟包,抖動和延遲,這些東西都是必要條件,但是不是充分條件。決定一個用戶體驗的是很多方面的因素,比如從音頻角度來說,從我們做音頻的角度來說,用的最多的就是上面說到的三個維度:語音可懂度、自然度、舒適度。
首先是聽得懂你說的話,這是可懂度。如果音量很低,卡頓很嚴重,或者回聲,或者很嘈雜,或者嘯叫發生,那我基本就無法聽了,那視頻會議通話中反應比較多的卡頓來說,我們通過深度學習技術來解決網絡丟包的問題。
IP網絡上面傳輸的時候常常會發生丟包的現象,以前處理丟包的技術比較簡單粗暴,比如直接拿后面一幀填補一下或者前一幀內容直接復制。但是現在我們通過機器學習的方法,可以很準確的預測丟掉的那個音節的部分內容,在用戶體驗上則并沒有感知。
但是光聽得懂肯定不行,你肯定不可能只滿足于聽得懂。
比如聽機器人說話,那聽得懂是沒有問題的,但自然度方面就不會太好,這里面就涉及很多音質的東西,不僅是延遲、卡頓,抖動,這些是網絡的指標。自然度對于用戶來說更多是一個感知問題,我們用音色是否明亮、是否均衡、是否豐滿,等等多項指標來衡量。當我們在語音處理中不可避免需要非線性處理的時候,我們就可以通過上述的指標來保證語音的感知自然度。
在語音舒適度維度方面,我們的終極目標是視頻會議語音通話的體驗要盡可能的接近真實場景下的人和人間距1米時的通話體驗,要達到這樣的目標,我們還有很長的一段路要走。目前可以想象到哪些困難我們需要克服,除了網絡QoS三要素外,如何盡可能真實的仿真出所處的聲學場景和對話形式,對于目標的達成至關重要,我們的技術演進路線圖也是朝著這個方向在努力。
3. 趕車
咖啡與信念缺一不可
(Photo by Sergey)
今年的需求(疫情)爆發了以后,我們整個團隊一直加班加點,針對以前很多沒有覆蓋到的場景、沒有碰到過的用戶需求,陸陸續續開發了更多的技術和功能。比如,我們發現很多老師給學生上課時需要聲音共享,而且這是一個非常剛性的需求。以前我們在辦公室很少有聲音共享,屏幕共享就可以了,所以我們在Windows(大部分老師都是用電腦進行教學直播互動)上提供了很多音頻共享的功能。
比如我們可以在學生把麥克風禁麥后還講話的時候提醒學生,我們通過信號處理的技術,可以把學生講話的聲音有效的從環境背景聲分離處理,從而實現關麥講話提醒這個功能。
另外,用戶激增后,我們也看到了不同用戶的終端設備差異性導致的產品行為的不一致。舉個例子,用戶開關麥克風的過程當中需要整個設備驅動進行重啟。設備驅動重啟的過程中,大部分設備都沒有問題,但是某些設備確會導致關麥的時候揚聲器無聲,一秒兩秒的無聲用傳統的質量評估手段是看不出來的,但對用戶體驗有很大的影響。所有這樣的問題被發現后,快速迭代的能力就非常關鍵。
在這個過程中,對產品的思考更多時候是一個信念問題,當有這么多人使用這款產品時,我們是帶有使命感在工作的。我們更多是希望早一點把需求解決、把功能做出來,早一點優化用戶的體驗。
所以大家常常是咬著牙,加班加點,周末也不休息。在聲音共享這個功能上線的時候,我記得我們有一個同學一晚上調bug調到了兩三點,我們當時想到底還要不要跟著這次產品更新一起發布新功能,還是說再挺一下,堅持把這最后一個問題解決掉。
因為產品的發布時間已經確定,如果這次趕不上,那意味著老師和學生們第二天上課時又沒有聲音,上課的效率和體驗都會受到比很大的影響, 所以我們的同學那天就趕了一整個晚上,在這期間咖啡就沒停過。
最后,終于在凌晨5點多鐘的時候,問題解決了,最后還做了全面的自測,確保沒有問題,第二天我們真的就硬是趕上了新版本發布的這趟車。
這個聲音共享功能發布了以后,我們非常非常開心,就是那種很單純的喜悅,希望上網課的老師們都趕緊升級到新版本,這樣他們再給學生分享視頻的時候,聲音的分享就再也不成問題了。
聲音是傳遞信息非常重要的媒介,所以我們的想法很簡單,就是這個東西能夠越早做出來越好。
4. 出海
VooV Meeting的師、敵、友
(Photo by Sergey)
最近,Zoom是一個非常值得關注的對象。Zoom對我們來說,是云視頻會議的先行者。因為它們在這個行業進入比較早,做得比較久,對用戶需求、行為的理解也比較深刻,有很多值得我們學習的地方。其實我也蠻喜歡微軟Teams的產品,它也有一些自己獨到的地方。它從Skype時代開始演進,有比較多的積累。而且微軟對底層技術有長期的投入,很多先進的思想一直在引領這個行業的進步。
因為我們做視頻會議的時間相對比較短,有這樣一些先行者給我們先進的思路,包括用戶的支持、合作伙伴、硬件合作伙伴合作模式等等,都是值得借鑒的。
騰訊會議海外版本VooV Meeting也同樣是我們在支持,畢竟底層技術都是一樣的。
從音頻角度來說,海外用戶跟國內用戶的訴求大體上一樣,但也有一些不一樣的地方。比如國內開會的時候,整個網絡架構都是比較均勻的,尤其是我們看到北上廣這些城市,他們本身的網絡條件是不錯的,延遲也處于比較好的狀況。
到了海外,我們的服務器部署不像在國內這么完善,我們需要知道哪些地方的服務器部署是不足的。海外也不需要像國內這樣面面俱到的部署,很多地域人口密度很低,比如美國的用戶可能比較集中在東西海岸,那么就需要針對東西海岸加強部署,在后臺的調度也要加以注意。
國內的話,我們的信息獲得比較全面,流量高發的城市地區我們都有掌握,但海外這些需求和信息要如何獲得,這就是一個問題。你怎么知道到底哪些城市在哪些時候會有一個峰值的需求?這必須要有一個對全網質量的評估和監控,這樣才能近乎實時地知道用戶的需求出現在什么地方,從而可以有針對性的、非常靈活快捷地進行相應的部署。
從具體使用技術的角度來說,國內外的用戶使用視頻會議的習慣也有些區別,國外可能習慣用PSTN電話的接入方式,國內則是IP來接入。國外很多用戶傾向于使用固定電話或者移動電話接入體驗,因為傳統電話網絡PSTN跟我們的IP網絡是屬于不同的運營商網絡,他們的運營商網絡到我們的網絡里面要經過很多網關、路由,針對這種情況怎么優化體驗是我們要加以考慮的,這方面的開發技術比如說頻譜擴展,比如PSTN專門的降噪,諸如此類的需求可以有針對性的加以開發。
5. 硬件
1+1>2
(Photo by Sergey)
國內有非常不錯的硬件制造商,深圳就有很多了。我們和這些硬件制造商合作的時候,怎么互相之間博采眾長,產生一加一大于二的效果,這里面其實有很多合作的空間。騰訊會議在很多場景里面是要跟不同的合作伙伴聯合打造一個比較好的會議體驗的,而這些合作伙伴在他們的相關領域里面,像硬件領域、網絡領域的未來發展是怎樣的,有什么有前景的趨勢,哪些變化在醞釀當中、又會什么時候發生,都是我們要持續關注的問題。比如,我們看到麥克風不斷有新技術材料出來,那相關制造商的路線規劃是什么,某些技術難點突破了以后會對視頻會議云通信的產品有怎樣的影響,這些都需要你擁有很好的前瞻性。
另外,我們一直比較關注相關的領域。比如,5G時代整個接入網絡帶寬上去了,那我們就思考當接入帶寬不再成為瓶頸以后,可以在哪些用戶體驗上做進一步的優化。
像之前提到的教學場景,老師們可能有些高品質的音頻需要傳輸,不僅僅是語音,還有基于音樂的特定場景。比如老師給學生放一段視頻,視頻里面可能不僅僅有對話,還會有高品質的音樂。那么對于音樂來講,面臨的挑戰是不一樣的。音樂的內容特征、頻譜、碼率需求,從音質體驗的角度來說比語音要求要高。
這樣的訴求在3G、4G網絡視頻會議下由于帶寬的限制、網絡的擁塞可能不得不放棄,但在5G的時候就會提上日程,要研究如何在新的場景下滿足用戶更多的需求,從而去優化他們的體驗。
另外,基于AI的技術,我們也看到音頻視頻兩者多模態可以更好的結合起來,能夠大大往前走一步,給用戶更好的綜合體驗。同時,計算能力上來以后,你會發現很多事情做起來受限于當時的設備,而現在慢慢都成為了可能,我們在思考怎么把這些事情一步一步做起來。我們現在和硬件廠商的很多合作,已經在緊鑼密鼓地開展了。騰訊會議本身可以提供很好的音視頻處理、傳輸、編解碼技術,我們的硬件合作伙伴也有一些他們專有的硬件上面的特色功能。
第一步,我們之間要先相互打通。直接打通第一步以后,我們要思考怎么把自己的技術和對方的優勢結合,這里面有很多工作可以做。
舉個例子,用戶的設備跟我們騰訊會議軟件,不管是通過有線網絡還是USB進行連接,以前在用戶設備上受限于運算能力做不到的事情,現在就可以做到了。因為通常我們講的會議電話這樣的產品,它的運算能力、內存總是受限的,很多基于AI的算法做不到。
但是騰訊會議的APP跑在我們通用的、運算能力強大的設備里面(像電腦)就不存在這樣的限制,尤其是和云結合起來后。一旦和硬件廠商打通以后,雙方找到彼此之間的配合點,以前做不到的事情現在都成為可能,典型的例子比如會議內容轉錄、整理會議紀要等等。
像一些傳統的視頻會議方案提供商,它本身是一個閉環,它的解決方案里,軟件硬件全都是它自己的,不存在運營多樣化的挑戰問題,因為每個鏈條它都自己把握,這樣質量有保證。但是相對而言,他們的完整解決方案的價位也比較高,兼容性也會是很大的問題。
騰訊會議的話,要跟所有設備商都可以接入,面臨著保證可靠性、穩定性、安全性的挑戰,因為不同的廠商的產品要在它的性能范圍之內互相協同,無縫連接。
在安全性方面,我不是專家,但從開發SDK的角度來說,我們對于用戶本身的信息肯定是不做收集的。對于用戶談話,比如交流的具體內容,我們也不會做任何收集,只是用算法對這些內容的統計信息進行收集,包括通話過程當中的質量,比如是否失真、嘈雜、有卡頓等等,這些都是從技術方面統計的信息。
因為我們需要對這些技術指標進行評估,比如我發現你那邊頻繁出現卡頓現象,那么我希望能夠知道你在什么時候、為什么發生了卡頓,如果發生卡頓的原因是技術網絡架構,或者是應用本身消耗了太多的CPU導致的,我們就可以更有針對性地進行優化,從而給予用戶更好的體驗。
6. 問題
Everything matters
(Photo by Sergey)
接下來我們要解決的問題,更多的會是更具挑戰性的多方會議場景下面的問題。因為現在的用戶場景非常多,多樣化場景下,不同的場景里面用戶對聲音的需求是不一樣的。這就說回到用戶場景的問題,當下的場景相對以前確實有很大的變化。以前騰訊會議的用戶場景沒有(也沒有想到)現在這么多。現在你可以在家里面、在辦公室里面、小型會議室里面、大型會議室里面開會,甚至各種直播場景都是以前沒有想過的。在各種場景里面,你的架構、相應的技術應該如何規劃、配合,在不同的場景里側重點又是什么,不同的人都有不一樣的理解。
我們這方面做得比較細,要根據用戶不同的場景去考量。比如開信息傳達的大會的場景,對于這種絕大部分時間都是信息單向傳輸的情況,延遲可能就不是那么重要了,重要的是聲音的可懂度和自然度,要保證用戶在長時間傾聽的條件下,避免聽覺疲勞和注意力分散。
而在小規模小組討論的場景下,大家都是是熟人,交互非常激烈,你一句我一句,這時候對實時交互的需求會非常強,需要很低的延時,除了對于可懂度和語音自然度的正常要求外,對于聲音的舒適度要求盡可能模仿面對面的溝通,要求很高。我們會考慮在這樣的場景下,需要哪些新技術,如何在多種限定條件下權衡,來達到一個最好的綜合體驗和容忍度,。
另外就是基于視頻會議的主場景,還有哪些衍生的需求,比如會議內容轉錄、同聲傳譯,以及和智能音箱的結合、如何通過語音助手來喚醒和交互……這些以前在傳統的視頻會議產品中見不到的功能,現在隨著相關市場產品、技術的成熟,都可以進一步融合起來,在協同辦公這樣的一個大背景下,共同來提升效率。
諸如此類,在當下和未來,我們都會碰到不一樣的挑戰,你要問哪個最重要,我沒有辦法回答,因為用戶A和用戶B的需求對我來說同樣重要。同時,我們也會用數據來說話,數據告訴我們用戶的需求在哪里,我們就去開發哪里;如果目前還沒能滿足這部分的需求,那我們就把它丟到map里,以后的每一天都要想辦法去滿足它。
騰訊多媒體實驗室簡介:
作為騰訊旗下頂尖的音視頻通信和處理研發團隊,騰訊多媒體實驗室專注于實時音視頻通信、音視頻編解碼前沿算法研究、音視頻國際標準、計算機視覺圖像處理、端到端音視頻質量評測。在實時音視頻通信和處理技術、音視頻國際標準等領域積累了完整的解決方案和領先的技術水平。
本文來源于: LiveVideoStack