國際殘疾人日：微軟正式捐贈第一批人工智能音頻內容

發布者：馬俊 2020-12-05

導讀12 月 2 日，微軟與周迅 AI 語音紅丹丹公益項目發起人——鹿音苑文化傳播公司、以及來自微軟及各界的 150 名余志愿者，將創作的首批人工智能有聲內容，包括魯迅、老舍、蕭紅

IT之家12月4日消息12月2日，微軟和周迅AI Voice宏達旦公益項目發起人——綠茵園文化傳播公司，以及微軟和各界150多名志愿者，將創作第一批人工智能音頻內容，包括魯迅、老舍、蕭紅、朱自清等作家的一系列經典作品，宏達旦文化期刊，正式捐贈給北京宏達旦視障文化服務中心(以下簡稱“宏達旦”)

這些作品基于微軟Azure Cloud Cognitive Service的語音合成平臺Speech Studio及其豐富的人工智能(AI)語音，包括藝術家周迅授權的定制語音、播音員董麗娜授權的定制語音、宏丹的視障人士、以及微軟幾個智能語音合成平臺(如曉曉、葉韻)的語音。

國際殘疾人日：微軟正式捐贈第一批人工智能音頻內容

隨著人工智能時代的到來，語音服務的重要性日益突出。微軟在不斷探索和突破智能語音的極限，加速從研發到產品的落地，希望賦予更多有科技實力的人和組織以權力。

國際殘疾人日：微軟正式捐贈第一批人工智能音頻內容

智能語音系統堪比專業揚聲器

國際殘疾人日：微軟正式捐贈第一批人工智能音頻內容

微軟已經深入智能語音領域二十多年了。智能語音作為人工智能的核心技術之一，已經融入到微軟的全球產品中，包括Windows Reading、Skype、Office等產品。隨著微軟CognitiveServices的推出，形成了面向開發者和合作伙伴的開放平臺體系，提供強大靈活的語音服務。

國際殘疾人日：微軟正式捐贈第一批人工智能音頻內容

近年來，隨著深度神經網絡技術的不斷創新，微軟文本到語音(TTS)技術取得了許多突破。2018年12月，微軟率先在全球范圍內推出端到端深度神經網絡語音合成服務，使計算機和智能設備擁有可與真人媲美的人工智能聲音。

國際殘疾人日：微軟正式捐贈第一批人工智能音頻內容

IT之家了解到，微軟的語音合成技術在探索提高語音自然度的同時，也在不斷探索語音的表現力、豐富性和智能性。微軟智能語音通過多情感、多角色、情緒強度可調的技術升級，極大地豐富了合成語音的風格。再者，為了大幅降低音頻內容的創作成本，微軟針對復雜的長文本提供了智能情感和角色預測功能，使得AI語音具有更強的理解能力，使得音頻內容的創作變得輕松便捷。

具體來說，智能語音多情感技術創造性地從人類語音中挖掘出情感化的語音特征，賦予合成語音擬人化的表現，使合成語音既能根據不同的場景而變化，又有自己的喜怒哀樂。所以聲音更有表現力，不僅能更貼切地表達文本，而且發音更容易理解，更生動。

比如曉曉的中文嗓音已經達到了14種情感風格。他可以用“抒情”、“新聞”、“聊天”等不同風格在不同的使用場景下解讀作品，也可以用“開心”、“難過”、“生氣”、“恐懼”等各種情緒在對話中表達不同的情緒和態度。

人的情緒就像色譜圖，色譜圖的顏色從深到淺，人的情緒也是如此，由強變弱。微軟智能語音情感強度可調技術，可以增強或減弱情感強度，使情感表達更加細膩，從而大大拓展情感矩陣，豐富多情感語音的表達；在實際的人與人的對話中，情感的變化是微妙的。通過情感度可控技術，人工智能對話或聊天機器人可以變得更加流暢和真實，人性化設計更加統一。

微軟智能語音提供多種語音角色供用戶選擇，涵蓋不同年齡、性別和性格特征。有些聲音也可以扮演不同的角色，比如男聲扮演女聲，年輕的聲音扮演老的聲音等等。通過微軟的優質聲音家族，用戶可以選擇更符合實際場景的不同聲音，滿足自然對話需求，創作出更有趣的組播劇。大大拓展了音頻內容的創作空間。

微軟智能語音也在探索一種更智能、更易理解的語音系統，能夠創造出豐富、自然、富有表現力的音頻內容，進一步降低人工操作成本。微軟語音根據上下文信息，可以識別旁白和對白、人物、情緒和情感，自動推薦最合適的語音。

為了方便大家創建音頻內容，微軟提供了一個智能音頻內容創建工具平臺。輸入文本后，工具可以先預測角色和情緒，然后選擇合適的聲音進行表演。作者可以調整聲音、情緒、節奏、發音等。以創建不同的音頻內容。

歌唱作為情感的延伸，是人類表達情感的重要方式。微軟之聲也在基于神經網絡的唱功上有所突破。微軟人工智能語音曉曉和朱婧一起演唱了難度較大的《人類零件》歌曲，展現了中英文雙語演唱和說唱能力，合成效果逼真自然。

微軟云擁有全球最多的數據中心，其認知服務智能語音技術面向全球市場，覆蓋語言數量全球領先。目前微軟的語音合成支持54個國家和地區的語言，提供150多種語音可供選擇。

微軟語音支持深度品牌定制

在人工智能時代，AI聲音不僅是一種基本能力，還被賦予了很多品牌屬性。在很多行業的實際應用中，客戶往往需要一個識別度高的個性化語音，“深度定制”只是微軟智能語音平臺的優勢之一。

基于客戶提供的語音數據，微軟可以實現“細粒度”定制，包括語音合成的音色、說話風格、特殊的發音要求甚至唱歌等特殊功能。在使用方面，微軟語音也相當靈活，不僅服務于云平臺，還支持本地化和離線部署等場景。

微軟天藍色和人工智能事業部高級產品總監丁認為，在個性化時代，聲音就是品牌。微軟的語音合成技術可以為企業定制豐富的音色，最大化品牌價值。

2019年11月，微軟推出了基于深度神經網絡語音合成技術的定制神經語音平臺，向第三方開放高質量的語音合成引擎，使微軟合作伙伴和客戶能夠通過簡單的自助服務定制識別和個性化的語音。

微軟的語音定制涵蓋了從語音畫像的設計到數據的收集整理、模型的優化、系統的部署等各個方面。用戶可以通過CustomVoice聲音定制平臺實現一鍵定制自助服務。

傳統技術定制的語音模型需要發送音人錄制成千上萬句話，需要耗費幾個月的時間，成本巨大。而微軟基于深度神經網絡技術的定制化語音，可以用更少的數據達到更加高擬人度和自然真實的效果。通過微軟語音涵蓋超過 50 個語言的 UNI-TTS 基礎模型和深度神經網絡強大的遷移學習能力，微軟聲音定制還支持跨語言定制，實現一個音色多個語種的多語言能力。

據悉，這一技術已經率先在多個知名企業得到應用。這包括新媒體、通信、教育、金融等多個行業，涉及客戶服務、AI 對話和內容生產的多個場景。

譬如英國廣播公司 BBC 就在微軟聲音定制和語音合成技術的幫助下，打造了一款虛擬助手 Beeb 用于多模態的客戶服務和有聲內容創作。具體而言，BBC 不僅需要 Beeb 發出標準英式發音，甚至細化到英國北部某個特定地區的口音風格，還有多風格的要求，比如在跟真人打招呼時，聲音需要符合個人助理身份的互動風格，而在播報政治、軍事類新聞時，就需要嚴肅的聲音風格。

面對這一挑戰，微軟在 BBC 提供的不到 2 小時的錄音人數據量中，與語言專家、客戶挑選和分析其中特定口音的發音特點，匯總成模型能識別的規律，最后構建到定制化模型里，生成高質量、多風格的聲音。

在教育行業，微軟語音團隊協助知名獨角獸公司多鄰國 Duolingo 打造具有多語言能力和豐富角色特征的聲音。據多鄰國藝術總監 GregHartman 介紹，“每一個角色的聲音都是和它的人物性格的一部分。微軟定制聲音平臺基于我們的角色特性，賦予了每一個人物生動的聲音風格。”

此外，微軟智能語音團隊還幫助 AT&T 時代華納、Swisscom（瑞士電信）、Progressive 等多家知名企業創建了他們的個性化聲音，實現與用戶的自然對話和交互。

在中國，目前語音服務也落地到由世紀互聯運營的 Azure 云服務上，中國用戶可以使用和全球一樣質量的語音合成服務。

2019 年春節前夕，央視新聞聯合微軟推出互動融媒體產品《你的生活 AI 為你唱作》，其中央視主播康輝和微軟 AI 智能語音中文曉曉為用戶唱作專屬歌曲，央視主播康輝的聲音即是利用微軟智能語音的聲音定制技術生成。此外，周迅為紅丹丹圖書館錄制有聲書、知名作家土摩托錄制三聯生活周刊音頻內容時，都用到了微軟定制語音合成技術。微軟以少量真人語音為訓練樣本，為他們合成了專屬于自己的智能 TTS 聲音。

除語音合成之外，微軟 AIspeech 還能夠提供全面的核心語音能力，例如語音識別、語音評測、語音翻譯，這些能力都支持多語種以及基于不同場景的定制。

其中，微軟的語音識別支持全球 30 個地區和國家語言，能夠提供近場和遠場識別，在線（real-time）和離線（batch）的靈活調用方式。語音識別還可以支持關鍵詞識別，說話人分離，語言識別，情緒識別等多種功能。

而微軟語音評測產品可支持包括英語在內的全球 40 多個國家和地區的語言，廣泛適用于教育領域解決方案的合作伙伴、APP 開發者以及語言學校、培訓中心、教育機構、考試中心的各種語言學習、口語練習和考試等場景的開發。

隨著深度神經網絡算法的突破，數據的爆發，基礎設施的完善，AI 語音技術正在走向大規模應用增長的發展方向。微軟以及其他平臺公司將不斷通過 AI 技術賦能更多場景，可以可以提供無限可能。

免責聲明：本文章由會員“馬俊”發布如果文章侵權，請聯系我們處理，本站僅提供信息存儲空間服務如因作品內容、版權和其他問題請于本站聯系

標簽：

國際殘疾人日：微軟正式捐贈第一批人工智能音頻內容

猜你喜歡

最新文章