從語音激活到空間音頻,讓聲音更加智能化

更新時間:0000-00-00 00:00:00    閱讀:2543

在人機交互過程中,聲音總是最自然和最直觀的途徑,不久之后所有設(shè)備都將會支持隨時傾聽,等待著我們的命令。

在人機交互過程中,聲音總是最自然和最直觀的途徑,不久之后所有設(shè)備都將會支持隨時傾聽,等待著我們的命令。



隨著新一代智能音箱和其它語音激活設(shè)備井噴式的發(fā)展,讓您可以更加舒適地和設(shè)備交談。如果在國外旅行時使用翻譯耳機的效果如何呢?雖然它們還不是很常見,但是Google剛剛發(fā)布的智能耳機Pixel Buds已經(jīng)支持了這個功能。


在最近的一篇文章中,我回顧了智能音箱發(fā)展的第二次浪潮,以高效生產(chǎn)和批量上市為特征。我推測這一階段將給市場領(lǐng)導(dǎo)者以壓力,促使他們進行技術(shù)創(chuàng)新和制造新的產(chǎn)品類型,同時進一步提高其它人的進入門檻。這正是我們這個月所看到的,谷歌、亞馬遜、蘋果等公司發(fā)布了很多新的音頻語音產(chǎn)品。


去年Google Home的推出對于之前大獲成功的Amazon Echo做出了回應(yīng)?,F(xiàn)在,谷歌正在擴大產(chǎn)品線,對抗包括Echo Dot,Apple HomePod和AirPods。谷歌語音激活助理因此可以有更多的使用場景,獲得更大的價格空間。


新的Google mini形狀像一個插針包,更小并且更便宜,是Google Home的替代品。對于那些尋找更好的聲音體驗而且愿意花更多錢的用戶,Google Max提供了更加高端的聲音體驗,它也具備Google Home的全部功能。新的Pixel Buds 提供了活動式(on-the-go )體驗,通過與智能手機配對創(chuàng)建一個入耳式的私人助理,和Apple的AirPods類似使用的是藍牙音頻流。這些耳機最有趣的特點之一是集成了谷歌翻譯,如視頻中看到的一樣支持入耳式同聲傳譯功能。谷歌表示它將支持40種不同的語言,這個數(shù)字無疑會隨著產(chǎn)品演進而不斷增加。


微信圖片_20181121175410.jpg

[圖1 | 從上到下依次是:AirPods 和Pixel Buds,Echo Dot 和Home Mini,以及HomePod 和Home Max]


語音激活技術(shù)另一個激動人心的發(fā)展是新的Gopro Hero6運動相機可以通過語音命令開機。這是GoPro第二代支持語音界面的設(shè)備,最早引入的是Gopro Hero5。


大多數(shù)的語音命令和之前一樣,比如“GoPro 啟動/停止錄音”等等。


新機型的創(chuàng)新點體現(xiàn)在用戶可以使用語音命令——“GoPro開機”打開相機。這個功能是可選的,在相機關(guān)機后的8個小時內(nèi)維持激活。盡管這還不是一臺完全隨時傾聽(always-listening)的設(shè)備,但它朝這個方向邁出了重要的一步??梢哉Z音激活的Gopro還例證了我們的另一個設(shè)想,語音將會成為主要的用戶界面。在人機交互過程中,聲音總是最自然和最直觀的途徑,不久之后所有設(shè)備都將會支持隨時傾聽,等待著我們的命令。


Alexa的下一個應(yīng)用是汽車,然后是你的臉


亞馬遜正在讓這一愿景成為現(xiàn)實,它仍在智能音箱市場上領(lǐng)先“新人”(谷歌)一步。在Google發(fā)布會之前,亞馬遜搶先發(fā)布了一系列新的Echo產(chǎn)品,包括采用了新外觀設(shè)計的一系列Echo產(chǎn)品和智能鬧鐘Echo Spot,延續(xù)了Echo Show開始的集成屏幕的風(fēng)格。亞馬遜還透露Alexa很快就會整合到寶馬2018的車型中。


這可能是Alexa在成為最受歡迎的家庭智能音箱之后,再一次率先成為最受喜愛的公路旅行伴侶。


比任何官方消息都更有趣的是那些關(guān)于即將推出的亞馬遜眼鏡的推測。肆意蔓延的傳聞指出它是基于Alexa的非手持,電池供電的眼鏡。根據(jù)猜測,亞馬遜眼鏡不會提供視覺體驗,但作為一個可穿戴設(shè)備,將允許用戶隨時隨地和Alexa說話。這將是亞馬遜向前邁出的重要一步,進軍了可穿戴領(lǐng)域并且支持always-on功能。


很明顯為了釋放語音助手的全部潛能需要消除電源插孔,這里有相關(guān)技術(shù)可以實現(xiàn)。


空間音頻可以產(chǎn)生或者打破虛擬/增強現(xiàn)實


隨著亞馬遜和谷歌的加入,將直接導(dǎo)致耳戴式設(shè)備(hearables)的全面改善。針對這種產(chǎn)品已經(jīng)提出了很多有趣的概念,比如Kickstarter項目中名叫Vi的人工智能私人教練,可以掌握用戶的生物識別特征并由此定制化訓(xùn)練,從而實現(xiàn)運動目標(biāo)?,F(xiàn)在想象一下,通過添加多維空間的音頻制造出Vi就在你身前或身后的感覺,是不是可以提供額外的動力幫助你打破個人記錄(參見10年前申請的專利)。


微信圖片_20181121175415.jpg

[圖2 | AR/VR應(yīng)用大肆炒作視覺技術(shù),但是要制造沉浸式的感覺,音頻是至關(guān)重要的]


在蘋果全新的手機中提出了最新的音頻創(chuàng)新理念。iPhone 8第一次包含了雙揚聲器。這是一件大事情,因為雙揚聲器可以啟用多維空間音頻,這意味著蘋果正在押寶到增強現(xiàn)實和虛擬現(xiàn)實(AR/VR)應(yīng)用上。要創(chuàng)建一個沉浸式的AR/VR體驗,空間音頻是必須的。否則即使有令人驚嘆的畫面也不會產(chǎn)生一個足夠有說服力的真實空間。


下一步是神經(jīng)網(wǎng)絡(luò)使能的聲音感知


音頻發(fā)展的下一步是什么? iPhone8和iPhoneX已經(jīng)包含了一個專門的神經(jīng)網(wǎng)絡(luò)引擎。針對耳戴式設(shè)備和語音激活設(shè)備,神經(jīng)網(wǎng)絡(luò)可用于聲音感知和音頻分析。這一技術(shù)已經(jīng)用來在家中識別某些特定的聲音,比如門鈴或者玻璃破碎,從而觸發(fā)適當(dāng)?shù)捻憫?yīng)。它可以改善耳戴式設(shè)備使用時的安全性,比如Vi私人教練和其它沉浸式 AR/VR應(yīng)用程序。神經(jīng)網(wǎng)絡(luò)可以感知到某些重要的聲音,并且通知用戶,如警報器或者狗叫。通過這種方式,無論安全性還是享受感都可以兼顧。



“閃電配音”是內(nèi)容與媒體首選的配音服務(wù)商,平臺可實現(xiàn)7*24小時在線、最快15分鐘實現(xiàn)千字配音且達到FM音質(zhì)標(biāo)準(zhǔn)的實際要求,每百字僅需2-10元,通過產(chǎn)品驅(qū)動滿足了對時效性要求高的自媒體等行業(yè),實現(xiàn)了配音行業(yè)生產(chǎn)方式的變革?,F(xiàn)階段,平臺已簽約主播1萬多名,平均每天有2千~3千筆訂單,已服務(wù)累計服務(wù)客戶超過3000家。行業(yè)覆蓋新聞媒體、自媒體、知識付費、短視頻、出版社有聲書業(yè)務(wù)等;包括故宮、知識分子、見字如面、吳曉波頻道、極客公園;磨鐵、郵電出版社、喜馬拉雅等。


該內(nèi)容為非商業(yè)目的的轉(zhuǎn)載分享,不代表本站觀點,本文版權(quán)屬其著作權(quán)人所有。若侵犯了您的正當(dāng)權(quán)益,請立即聯(lián)系我們刪除。

閃電配音

掃碼免費試音
企業(yè)微信

免費試音

幫我推薦

價格計算

在線下單

開具發(fā)票

不招主播

確認(rèn)提交

全網(wǎng)全品類皆可配 頂配好聲音

點我咨詢
錯誤