聲音檔案里面是什么?

更新時間:2018-12-02 09:30:00    閱讀:2519

2014 年的現(xiàn)在,人們最常使用的保存聲音的方式,就是「聲音檔案」(Audio File)了,您在網(wǎng)絡(luò)上聽到的所有聲音,包含 MUZIK ONLINE 上的每一首音樂,YouTube 上影片的聲音部分,都是使用某種聲音文件格式來儲存的。所以,聲音檔案里面到底裝的是什么東西?為什么它可以儲存聲音?


微信圖片_20181130101557.jpg

今天的故事要從最后一個流程「保存聲音」說起。2014 年的現(xiàn)在,人們最常使用的保存聲音的方式,就是「聲音檔案」(Audio File)了,您在網(wǎng)絡(luò)上聽到的所有聲音,包含 MUZIK ONLINE 上的每一首音樂,YouTube 上影片的聲音部分,都是使用某種聲音文件格式來儲存的。所以,聲音檔案里面到底裝的是什么東西?為什么它可以儲存聲音?


什么是「數(shù)字」?



首先我要來厘清一下名詞。這系列文章的標(biāo)題其實是三個字組成的:「數(shù)字」、「音樂」和「科技」,我想大家比較會有疑慮的是「數(shù)位」這個字,「數(shù)字」到底是什么意思?


「數(shù)位」這個字的簡單的定義是:「用數(shù)字,來描述、處理、保存事情」。也就是說,這一系列的文章也會跟數(shù)字和數(shù)學(xué)很有關(guān)聯(lián)喔!


畫素




為了讓您更能想象聲音檔案的運作方式,我想先介紹一下圖片檔案。


現(xiàn)在網(wǎng)絡(luò)上最流行的圖片文件格式叫做 JPEG,您在 Facebook 上看到的每一張照片,都是使用這個方式儲存的。JPEG 檔案(以及其他大部份的圖片檔案)里面裝的是什么呢?它里面有很多「畫素」(pixel)。


您在計算機或手機屏幕上,看到的所有東西,都是由一個一個細(xì)小的小方格組成的,因為這些小方格太小了,平常您不會注意到它們的存在,所以我要把它們放大給您看清楚。

微信圖片_20181130101708.gif

首先,您可能會發(fā)現(xiàn)一個有趣的事情:在屏幕上你看起來像是全黑的文字,其實它的邊緣不是真正全黑的。


在這里您看到的每一個小方格,就是一個「畫素」?,F(xiàn)代計算機儲存一張黑白圖片檔案的方式,就是測量每一個畫素的亮度,然后給它一個范圍是 0 到 255 的數(shù)字,0 表示最暗(也就是純黑),255 表示最亮(純白),中間的數(shù)值代表各種不同深淺的灰色。

微信圖片_20181130101728.gif

所以,在黑白圖片檔案中,每一個畫素,就是一個范圍是 0 到 255 的數(shù)字(注 1),集合夠多的畫素,您就得到了一張圖片。


聲音檔案的「畫素」




在聲音檔案中,與「畫素」相對應(yīng)的東西叫做「取樣」(sample)。您可以想樣,一個「取樣」就是一小小小小小段聲音,跟「畫素」一樣,也是用一個數(shù)字來代表。不過您可能會想,我們要怎么用數(shù)字來形容聲音呢?就像在圖片檔案里,我們用一個數(shù)字來描述一小塊圖片的「亮度」;在聲音檔案里,我們用一個數(shù)字來描述一小段時間內(nèi)的「空氣密度」。


聲音檔案的運作方式其實超乎想象地簡單:您可能還記得在高中物理課的時候?qū)W到的,聲音是一種「疏密波」,也就是說您大腦覺得的「聲音」,其實只是您的耳朵偵測到周遭空氣分子的密度變化,傳送訊號給大腦后產(chǎn)生的幻覺而已。

微信圖片_20181130101749.jpg

如上圖,當(dāng)左方的喇叭在震動的時候,會造成周圍的空氣分子在某些地方的密度比較高、有些地方比較低。然后您只要拿一個「空氣分子密度偵測器」(俗稱「麥克風(fēng)」),去測量當(dāng)下的空氣密度,當(dāng)空氣密度高的時候,給它一個大數(shù)字,而密度低的時候,給它一個小數(shù)字就可以了。

微信圖片_20181130101854.gif

然后當(dāng)您不斷地、一直一直重復(fù)測量空氣密度之后,您就會得到??一大堆數(shù)字。沒錯,您每天聽到的網(wǎng)絡(luò)上的聲音、下載的每一首 MP3 音樂檔案,就只是一大堆敘述空氣密度的數(shù)字而已,計算機可以讀取這些數(shù)字,然后再透過您的音響重現(xiàn)記錄好的空氣密度變化。


聲音檔案的分辨率



聲音檔案的質(zhì)量基本上由兩個因素決定:第一是我們用多大的數(shù)字范圍來敘述一個當(dāng)下的空氣密度,第二是我們每一秒鐘敘述空氣密度幾次。我們剛開始說了,一般的黑白圖片檔案,是用 0 到 255 的數(shù)字來表達(dá)一個畫素的亮度,也就是說,從全黑到全白,圖片檔案可以記錄 256 種不同深淺的灰色。

微信圖片_20181130101914.jpg

一般聲音檔案的分辨率比這高得多,從空氣最稀疏到最密集,我們是用范圍 0 到 65,535 的數(shù)字來表示,而在專業(yè)用途的聲音文件,數(shù)字的范圍更大(注 2)。


我們把每一秒鐘,聲音檔案記錄空氣密度的次數(shù),稱為「取樣頻率」(sample rate)?,F(xiàn)在最常被使用的取樣頻率是 44,100 Hz,也就是每秒鐘記錄空氣密度 44,100 次。

微信圖片_20181130101927.jpg

換句話說,在一般您每天使用的聲音檔案,每一秒鐘的聲音,就是 44,100 個、范圍是 0 到 65,535 的數(shù)字。那是非常非常多的數(shù)字耶,這也就是我們?yōu)槭裁唇兴笖?shù)字」音樂的原因了。


還有更多所以您現(xiàn)在知道了,您每天聽的聲音檔案,里面裝的只是一大堆、敘述空氣密度的數(shù)字而已。那么,在人類發(fā)明計算機來儲存一大堆數(shù)字之前,我們又是怎么儲存聲音的呢?


注 1:在彩色圖片中,每一個畫素則是用「三個」范圍是 0 到 255 的數(shù)字表示,分別代表紅色、綠色、藍(lán)色的亮度。

注 2:在專業(yè)錄音設(shè)備使用的檔案,敘述空氣密度的數(shù)字范圍通常是 0 到 16,777,215。



“閃電配音”是內(nèi)容與媒體首選的配音服務(wù)商,平臺可實現(xiàn)7*24小時在線、最快15分鐘實現(xiàn)千字配音且達(dá)到FM音質(zhì)標(biāo)準(zhǔn)的實際要求,每百字僅需2-10元,通過產(chǎn)品驅(qū)動滿足了對時效性要求高的自媒體等行業(yè),實現(xiàn)了配音行業(yè)生產(chǎn)方式的變革?,F(xiàn)階段,平臺已簽約主播1萬多名,平均每天有2千~3千筆訂單,已服務(wù)累計服務(wù)客戶超過3000家。行業(yè)覆蓋新聞媒體、自媒體、知識付費、短視頻、出版社有聲書業(yè)務(wù)等;包括故宮、知識分子、見字如面、吳曉波頻道、極客公園;磨鐵、郵電出版社、喜馬拉雅等。

該內(nèi)容為非商業(yè)目的的轉(zhuǎn)載分享,不代表本站觀點,本文版權(quán)屬其著作權(quán)人所有。若侵犯了您的正當(dāng)權(quán)益,請立即聯(lián)系我們刪除。

閃電配音

掃碼免費試音
企業(yè)微信

免費試音

幫我推薦

價格計算

在線下單

開具發(fā)票

不招主播

確認(rèn)提交

全網(wǎng)全品類皆可配 頂配好聲音

點我咨詢
錯誤