丁香婷婷网,黄色av网站裸体无码www,亚洲午夜无码精品一级毛片,国产一区二区免费播放

<bdo id="mkykk"></bdo>

<center id="mkykk"></center>

現(xiàn)在位置：范文先生網(wǎng)>理工論文>計(jì)算機(jī)論文>音頻壓縮的成功者——感知編碼

音頻壓縮的成功者——感知編碼

時(shí)間：2023-02-20 22:36:29 計(jì)算機(jī)論文我要投稿

相關(guān)推薦

音頻壓縮的成功者——感知編碼

音頻壓縮的成功者——感知編碼

2004年中南地區(qū)省級(jí)電視臺(tái)技術(shù)年會(huì)論文二等獎(jiǎng)

近年來，隨著現(xiàn)代通信的發(fā)展，數(shù)字化日益滲透人們的日常生活，人們對(duì)各種多媒體業(yè)務(wù)的需求日益增長(zhǎng)，我們正享受著數(shù)字化帶來的方便和快捷，衛(wèi)星電視、數(shù)字電視、各種數(shù)碼音樂產(chǎn)品正改變著我們的生活。于是便要求得到更多更好的音頻產(chǎn)品和服務(wù)。數(shù)字聲音作為一種存儲(chǔ)、處理和傳輸高保真聲音的方法，在消費(fèi)電子、專業(yè)聲音等眾多領(lǐng)域已得到廣泛應(yīng)用。但是如果沒有通用有效的高質(zhì)量音頻編解碼方案，數(shù)字存儲(chǔ)和傳輸技術(shù)的進(jìn)一步發(fā)展將會(huì)受到嚴(yán)重的束縛。在音頻數(shù)字壓縮技術(shù)中，當(dāng)前比較成功的編碼方式被稱為“感知型編碼（ Perceptual Coding ）”，現(xiàn)在比較常用的 MP3 、 MD 等都是感知編碼原理。

音頻壓縮的成功者——感知編碼

一般來說，數(shù)據(jù)壓縮有兩種方法。一種方法是利用信號(hào)的統(tǒng)計(jì)性質(zhì)，完全不丟失信息的高效率編碼法，稱為平均信息量編碼或熵編碼。第二種方法是利用接收信號(hào)的人的感覺特性，省略不必要的信息，壓縮信息量，這種方法稱為感覺編碼。

因?yàn)殪鼐幋a可通過解碼完全再現(xiàn)編碼前的數(shù)據(jù)，故應(yīng)用范圍廣泛 ,例如可用于磁盤壓縮、文件壓縮等，在保存信息方面，完全不用擔(dān)心劣化。不過遺憾的是，僅依靠熵編碼不能將音頻信號(hào)進(jìn)行大幅度的數(shù)據(jù)壓縮。這是因?yàn)樵谝纛l信號(hào)中會(huì)有白噪聲信號(hào)，這種完全隨機(jī)的信號(hào)，根據(jù)信息論是決不能用熵編碼進(jìn)行壓縮的。因此在音頻壓縮中，必須同時(shí)采用感知編碼。

感知編碼是利用人耳聽覺的心理聲學(xué)特性（頻譜掩蔽特性和時(shí)間掩蔽特性）、人耳對(duì)信號(hào)幅度、頻率、時(shí)間的有限分辨能力，凡是人耳感覺不到的成分不編碼，不傳送，即凡是對(duì)人耳辨別聲音信號(hào)的強(qiáng)度、音調(diào)、方位有貢獻(xiàn)的部分（稱為不相關(guān)部分或無關(guān)部分）都不編碼和傳送。對(duì)感覺到的部分進(jìn)行編碼時(shí)，允許有較大的量化失真、并使其處于聽閾以下，人耳仍然感覺不到。簡(jiǎn)單的說感知編碼是建立在人類聽覺系統(tǒng)的心理聲學(xué)原理為基礎(chǔ)，只記錄那些能被人的聽覺所感知的聲音信號(hào)，從而達(dá)到減少數(shù)據(jù)量而又不降低音質(zhì)的目的。

目前音頻壓縮編碼已成為標(biāo)準(zhǔn)的是 MPEG-1 （ ISO/IEC11172-3 ）、 MPEG-2 （ ISO/IEC13818-3 ）和美國(guó)大聯(lián)盟的 AC-3 。他們都是感知編碼。

一、為什么壓縮

了解數(shù)字音頻首先要提到脈沖編碼調(diào)制 PCM （ Pulse Code Modulation ），它是概念上最簡(jiǎn)單、理論上最完善的編碼系統(tǒng)，是最早研制成功、使用最為廣泛的編碼系統(tǒng)，但也是數(shù)據(jù)量最大的編碼系統(tǒng)。 PCM 指模擬音頻信號(hào)只經(jīng)過采樣、量化、編碼，模數(shù)轉(zhuǎn)換成 PCM 信號(hào)，得到標(biāo)準(zhǔn)的數(shù)字音頻碼流，而未經(jīng)過任何編碼和壓縮處理。

根據(jù)奈奎斯特采樣定律，通常其采樣頻率至少應(yīng)當(dāng)是信號(hào)中的最高頻率分量的兩倍。對(duì)于高質(zhì)量的音頻信號(hào)，其頻率范圍是從 20Hz ～ 20kHz 。所以其采樣頻率必須在 40kHz 以上。在 CD 中采用了 44.1kHz 的采樣頻率。普通 CD 線性 PCM 的取樣頻率為 44.1kHz ，量化精度為 16bit ，動(dòng)態(tài)范圍為 98db 。（在對(duì)模擬信號(hào)采樣以后，還必須對(duì)其幅度上加以分層。在 CD 中，其分層以后的幅度信號(hào)用 16 bit 的二進(jìn)制信號(hào)來表示，也就是把模擬的音頻信號(hào)在幅度上分為 65536 （ 2 16 ）層。這樣，它的動(dòng)態(tài)范圍就可以達(dá)到 96 分貝（ 6 分貝 / 比特）。）

PCM 的編碼原理比較直觀和簡(jiǎn)單，它的原理框圖如圖所示。

在這個(gè)編碼框圖中，它的輸入是模擬聲音信號(hào)，它的輸出是 PCM 樣本。圖中的“防失真濾波器”是一個(gè)低通濾波器，用來濾除聲音頻帶以外的信號(hào)；“波形編碼器”可暫時(shí)理解為“采樣器”，“量化器”可理解為“量化階大小 (step-size) ”生成器或者稱為“量化間隔”生成器。

那么這種未經(jīng)壓縮的 PCM 信號(hào)的數(shù)據(jù)量具體有多大呢？以 CD 音質(zhì)的信號(hào)為例，它的單通道的采樣率是 44.1k Hz ，每個(gè)樣值是 16bit 的量化，而立體聲 CD 音質(zhì)信號(hào)，有兩個(gè)通道，它每秒的碼流是 44.1K × 16 × 2 ≈ 1.4Mbit/s 。（數(shù)字信號(hào)傳輸率 = 取樣頻率 × 量化比特 × 通道數(shù)）一張 CD 唱片的容量約為 680MB ，可以容納約 1 小時(shí)的雙聲道 PCM 數(shù)字音頻節(jié)目，由于這種編碼方式所產(chǎn)生的數(shù)據(jù)量太大，存儲(chǔ)和傳輸都既不方便也不經(jīng)濟(jì)，有時(shí)甚至是行不通的。對(duì)于電視廣播來說，數(shù)據(jù)傳輸速率越高，每套節(jié)目所需的頻寬就越大，在頻帶資源日趨緊張的今天，過寬的頻帶是不能允許的，同時(shí)對(duì)于有形載體（激光碟、磁帶等），每種載體的記錄密度都是有限的（受當(dāng)時(shí)技術(shù)發(fā)展程度的制約），增大數(shù)據(jù)量就意味著縮短節(jié)目長(zhǎng)度。因此需要開發(fā)一種新的編碼方式，它應(yīng)該使用較少的數(shù)據(jù)量，而又不會(huì)導(dǎo)致音質(zhì)的主觀聽感有明顯的下降。

二、感知編碼原理

1 、理論基礎(chǔ)——聞?dòng)蚝团R界頻段

音頻壓縮理論是建立在心理聲學(xué)模型基礎(chǔ)上，從研究人耳的聽感系統(tǒng)開始的。

人耳實(shí)際上可看成一個(gè)多頻段的聽感分析器，在接收端的最后，它對(duì)瞬間的頻譜功率進(jìn)行了重新分配，這就為音頻的數(shù)據(jù)壓縮提供了依據(jù)。

眾所周知，聲源振動(dòng)的能量通過聲波傳入人耳，使耳膜發(fā)生振動(dòng)，人們就產(chǎn)生了聲音的感覺。但是人耳能聽到的振動(dòng)頻率約在 20 Hz 到 20KHz 之間，低于 20 Hz 或高于 20K Hz 的振動(dòng)，不能引起人類聽覺器官的感覺。心理聲學(xué)模型中一個(gè)基本的概念就是聽覺系統(tǒng)中存在一個(gè)聽覺閾值電平，低于這個(gè)電平的聲音信號(hào)就聽不到，因此就可以把這部分信號(hào)去掉。聽覺閾值的大小隨聲音頻率的改變而改變，各個(gè)人的聽覺閾值也不同。大多數(shù)人的聽覺系統(tǒng)對(duì) 2kHz ～ 5kHz 之間的聲音最敏感。一個(gè)人是否能聽到聲音取決于聲音的頻率，以及聲音的幅度是否高于這種頻率下的聽覺閾值。這就是說在聽覺閾值以外的電平可以去掉，相當(dāng)于壓縮了數(shù)據(jù)。另外，聽覺閾值電平是自適應(yīng)的，即聽覺閾值電平會(huì)隨聽到的不同頻率的聲音而發(fā)生變化。也許你有這樣的體驗(yàn)，在一安靜房間里的普通談話可以聽得很清楚，但在播放搖滾樂的環(huán)境下同樣的普通談話就聽不清楚了。聲音壓縮算法也同樣可以確立這種特性的模型來取消更多的冗余數(shù)據(jù)。

2 、掩蔽效應(yīng)

心理聲學(xué)模型中的另一個(gè)概念是聽覺掩飾特性—— 掩蔽效應(yīng)，即一種頻率的聲音阻礙聽覺系統(tǒng)感受另一種頻率的聲音的現(xiàn)象稱為掩蔽效應(yīng)。前者稱為掩蔽聲音 (masking tone) ，后者稱為被掩蔽聲音 (masked tone) 。

掩蔽效應(yīng)探討的基礎(chǔ)是感知編碼中的一個(gè)重要的概念——臨界頻段，即人耳對(duì)不同頻率段聲音信號(hào)的反應(yīng)靈敏程度有所差別。人耳中包含了約 3 萬個(gè)毛細(xì)胞，它們能夠檢測(cè)到基膜的振動(dòng)，通過生理脈沖將音頻信息傳到大腦，但這些細(xì)胞在不同頻率的敏感程度不同，在低頻區(qū)域?qū)缀掌澋牟町惗寄芊直娉鰜�，而在高頻區(qū)域，必須要有幾百赫茲的差別才能分辨。所以，一般毛細(xì)胞會(huì)對(duì)其周圍的強(qiáng)刺激作出反應(yīng)，這就是臨界頻段。實(shí)驗(yàn)結(jié)果表明，在低頻區(qū)域臨界頻段比在高頻區(qū)域臨界頻段窄，在低頻段臨界頻段很窄，頻段寬度只有 100 Hz 到 200 Hz ，在高于 5000 Hz 以后的臨界頻段的寬度有 1000 Hz 至幾萬 Hz 的頻段寬度。 3/4 臨界頻段低于 5Khz ，人耳可以接收到的低頻信息高于高頻信息。

掩蔽可分成頻域掩蔽和時(shí)域掩蔽。

所謂頻域掩蔽是指掩蔽聲與被掩蔽聲同時(shí)作用時(shí)發(fā)生掩蔽效應(yīng)，即較強(qiáng)的聲音信號(hào)可以掩蔽臨近頻段中同時(shí)發(fā)聲的較弱的信號(hào)。這種特性稱為頻域掩蔽，也稱同時(shí)掩蔽 (simultaneous masking) 。這時(shí)，掩蔽聲在掩蔽效應(yīng)發(fā)生期間一直起作用，是一種較強(qiáng)的掩蔽效應(yīng)。換言之，如果在某一頻段中出現(xiàn)了一個(gè)較強(qiáng)的信號(hào)，那么該頻段中所有低于某一門檻值的信號(hào)都將被強(qiáng)信號(hào)掩蔽掉，成為人耳不可聞的信號(hào)。掩蔽特性與掩蔽音的強(qiáng)弱，掩蔽音的中心頻率，掩蔽音與被掩蔽音的頻率相對(duì)位置等有關(guān)。通常，頻域中的一個(gè)強(qiáng)音會(huì)掩蔽與之同時(shí)發(fā)聲的附近的弱音，弱音離強(qiáng)音越近，一般越容易被掩蔽；反之，離強(qiáng)音較遠(yuǎn)的弱音不容易被掩蔽。濾除這一弱信號(hào)將不會(huì)對(duì)音質(zhì)產(chǎn)生不良影響，而且能減少編碼后的數(shù)據(jù)量，所以可以把它們作為噪聲信號(hào)來對(duì)待。

除了同時(shí)發(fā)出的聲音之間有掩蔽現(xiàn)象之外，在時(shí)間上相鄰的聲音之間也有掩蔽現(xiàn)象，并且稱為時(shí)域掩蔽。所謂時(shí)域掩蔽是指掩蔽效應(yīng)發(fā)生在掩蔽聲與被掩蔽聲不同時(shí)出現(xiàn)時(shí)，又稱異時(shí)掩蔽。時(shí)域掩蔽又分為超前掩蔽 (pre-masking) 和滯后掩蔽 ( post-masking) ，若掩蔽聲音出現(xiàn)之前的一段時(shí)間內(nèi)發(fā)生掩蔽效應(yīng)，則稱為導(dǎo)前掩蔽；否則稱為滯后掩蔽。產(chǎn)生時(shí)域掩蔽的主要原因是人的大腦處理信息需要花費(fèi)一定的時(shí)間。一般來說，超前掩蔽很短，只有大約 5 ～ 20 ms ，而滯后掩蔽可以持續(xù) 50 ～ 200 ms 。異時(shí)掩蔽也隨著時(shí)間的推移很快會(huì)衰減，是一種弱掩蔽效應(yīng)。

如上圖左圖所示，當(dāng)有黑線所示的某頻率信號(hào)存在時(shí)，靠近它的本來可以聽見的噪聲 B就變得聽不見了，這種現(xiàn)象叫做頻率掩蔽效應(yīng)。而如右圖所示，當(dāng)某時(shí)刻有黑線所示的信號(hào)存在時(shí)，位于其后面的比它小一些的本來可聽見的噪聲E也變得聽不見了，這種現(xiàn)象稱為時(shí)間掩蔽效應(yīng)。這些兩種效應(yīng)合成的結(jié)果，就形成了實(shí)際的可聞閾。如下圖所示：

三、感知編碼器

1 、感知編碼器的特點(diǎn)

感知編碼器首先分析輸入信號(hào)的頻率和振幅，然后將其與人的聽覺感知模型進(jìn)行比較。編碼器用這個(gè)模型去除音頻信號(hào)的不相干部分及統(tǒng)計(jì)冗余部分。盡管這個(gè)方法是有損的，但人耳卻感覺不到編碼信號(hào)質(zhì)量的下降。感知編碼器可以將一個(gè)聲道的比特速率從 768kb/s 降至 128kb/s ，將字長(zhǎng)從 16 比特 / 取樣減少至平均 2.67 比特 / 取樣，數(shù)據(jù)量減少了約 83% 。

感知編碼器的有效性部分源自采用了自適應(yīng)的量化方法。在 PCM 中，所有的信號(hào)都分為相同的字長(zhǎng)，感知編碼器則是根據(jù)可聽度來分配所使用的字長(zhǎng)。重要的聲音就分配多一些位數(shù)來確�？陕牭耐暾裕鴮�(duì)于輕言細(xì)語的編碼位數(shù)就會(huì)少一些，不可聽的聲音就根本不進(jìn)行編碼，從而降低了比特速率。編碼器的壓縮率是輸入的比特?cái)?shù)與輸出的比特?cái)?shù)之比。一般常見的壓縮率是 4 ： 1 ， 6 ： 1 或 12 ： 1 。

一般感知編碼采用兩種比特分配方案。一種是前向自適應(yīng)分配方案，所有的分配都在編碼器中進(jìn)行，這個(gè)編碼信息也包含在比特流中。前向自適應(yīng)編碼的一個(gè)突出優(yōu)點(diǎn)是在編碼器中采用了心理聲學(xué)模型，它只是利用編碼數(shù)據(jù)完全地重建信號(hào)。當(dāng)改進(jìn)了編碼器中心理聲學(xué)模型時(shí)，可利用現(xiàn)有的編碼器來重建信號(hào)。這種方法的一個(gè)缺點(diǎn)是需要占用一些比特位來傳遞分配信息。在后向自適應(yīng)分配方案中，比特分配信息可以直接從編碼的音頻信號(hào)中推導(dǎo)出來，不需要編碼器中詳細(xì)的分配信息，分配信息也不占用比特位。然而在解碼器中的比特分配信息是根據(jù)有限的信息推導(dǎo)出來的，精度必然會(huì)降低。另外解碼器相應(yīng)也比較復(fù)雜，而且不能輕易地改變心理聲學(xué)模型。

感知編碼有一定的抗噪性。在 PCM 中誤差引入了寬帶噪聲，而對(duì)于許多感知編碼器，根據(jù)預(yù)編碼信號(hào)的典型帶寬，噪聲被限定在窄帶內(nèi)，因而限制了其強(qiáng)度。誤差僅僅引入了一個(gè)低電平的噪聲。感知編碼系統(tǒng)還對(duì)目標(biāo)噪聲進(jìn)行校正，例如對(duì)于極弱的聲音、比較強(qiáng)的聲音給予更多的保護(hù)。象任何編碼系統(tǒng)一樣，感知編碼系統(tǒng)也是綜合存儲(chǔ)量、傳輸速率等因素來考慮的合適的誤差校正方案。

由于感知編碼器根據(jù)人耳的靈敏度來編碼，它也可以輸出放音系統(tǒng)所要求的響度。實(shí)況播送的音樂不通過放大器和揚(yáng)聲器而直接進(jìn)入耳朵但是錄制的音樂必須通過放音系統(tǒng)。由于感知編碼器去除了不可聽的信號(hào)成分，從邏輯上講，加強(qiáng)了放音系統(tǒng)傳送可聽音樂的能力。簡(jiǎn)言之，感知編碼器很適合對(duì)需要經(jīng)過音頻系統(tǒng)的音頻信號(hào)編碼。

2 、壓縮的實(shí)現(xiàn)——子帶壓縮技術(shù)

子帶壓縮技術(shù)是以子帶編碼理論為基礎(chǔ)的一種編碼方法。

子帶編碼理論的基本思想是將信號(hào)分解為若干子頻帶內(nèi)的分量之和，然后對(duì)各子帶分量根據(jù)其不同的分布特性采取不同的壓縮策略以降低碼率。

子帶編碼是將一個(gè)短周期內(nèi)的連續(xù)時(shí)間取樣信號(hào)送入濾波器中，濾波器組將信號(hào)分為多個(gè)（最多 32 個(gè)）限帶信號(hào)，以近似人耳的臨界頻段響應(yīng)。對(duì)于這些子帶，利用 FFT 將信號(hào)變換到頻域分析其能量，利用心理聲學(xué)模型來分析這些數(shù)值，給出這組數(shù)據(jù)的合成掩蔽曲線。編碼器通過分析每個(gè)子帶的能量來判斷該子帶是否包含可聽信息。計(jì)算每個(gè)子帶的平均功率，用來計(jì)算當(dāng)前子帶及鄰接子帶的掩蔽級(jí)，最后根據(jù)最小聞?dòng)蛲茖?dǎo)出各個(gè)子帶最后的掩蔽級(jí)。每個(gè)子帶的峰值功率與掩蔽級(jí)的比率由所作的運(yùn)算來決定，并根據(jù)信號(hào)振幅高于可聽曲線的程度來分配量化所需的比特?cái)?shù)。

由于在子帶壓縮技術(shù)中主要應(yīng)用了心理聲學(xué)中的聲音掩蔽模型，因而在對(duì)信號(hào)進(jìn)行壓縮時(shí)引入了大量的量化噪聲。當(dāng)重建信號(hào)時(shí)，每個(gè)子帶的量化噪聲被限制在該子帶內(nèi)，由于每個(gè)子帶的信號(hào)會(huì)對(duì)噪聲進(jìn)行掩蔽，所以子帶內(nèi)的量化噪聲是可以容忍的。因?yàn)楦鶕?jù)人耳的聽覺掩蔽曲線，在解碼后，這些噪聲被有用的聲音信號(hào)掩蔽掉了，人耳無法察覺；同時(shí)由于子帶分析的運(yùn)用，各頻帶內(nèi)的噪聲將被限制在頻帶內(nèi)，不會(huì)對(duì)其它頻帶的信號(hào)產(chǎn)生影響。因而在編碼時(shí)各子帶的量化階數(shù)不同，采用了動(dòng)態(tài)比特分配技術(shù)，這也正是此類技術(shù)壓縮效率高的主要原因。在一定的碼率條件下，此類技術(shù)可以達(dá)到“完全透明”的聲音質(zhì)量（ EBU 音質(zhì)標(biāo)準(zhǔn)）。

3、子帶編碼的典型應(yīng)用—— MPEG-1 音頻壓縮

在音頻壓縮標(biāo)準(zhǔn)化方面取得巨大成功的是 MPEG-1 數(shù)字音頻壓縮方案。

在 MPEG-1 壓縮中，按復(fù)雜程度規(guī)定了三種模式即 MPEG Audio Layer-1 、 Layer-2 和 Layer-3 。目前廣泛使用的 VCD 的音頻壓縮方案為 MPEG Audio Layer-1 ，它的典型的碼流為每通道 192Kbit/S 。 Layer-2 即稱掩蔽模式通用子帶集成編碼與多路復(fù)用，典型的碼流為每通道 128 Kbit/S ，廣泛應(yīng)用于數(shù)字音頻廣播、數(shù)字演播室等數(shù)字音頻專業(yè)的制作、交流、存儲(chǔ)和傳送。我們最熟悉的是 Layer-3 ，也就是常說的 MP3 ，是綜合于層Ⅱ的優(yōu)點(diǎn)提出的混合壓縮技術(shù)， MP3 的壓縮比率更大，可以達(dá)到 1 ∶ 10 ～ 1 ∶ 12 的比例，而 MP1 和 MP2 分別只有 1 ∶ 4 和 1 ∶ 6 ～ 1 ∶ 8 的壓縮比例。這也就決定了 MP3 格式的文件尺寸更加適合存儲(chǔ)空間小的隨身聽使用。但 MP3 的復(fù)雜度相對(duì)較高，編碼不利于實(shí)時(shí)，典型碼流為 64 Kbit/S ，在低碼率下有高品質(zhì)的音質(zhì)，所以成為網(wǎng)上音源的寵兒。

MPEG-1 的壓縮技術(shù)方案是子帶壓縮，子帶分割的實(shí)現(xiàn)是通過時(shí)頻映射，采用多相正交分解濾波器組將數(shù)字化的寬帶音頻信號(hào)分成 32 個(gè)子帶；同時(shí)，信號(hào)通過 FFT 運(yùn)算，對(duì)信號(hào)進(jìn)行頻譜分析；子帶信號(hào)與頻譜同步計(jì)算，得出對(duì)各子帶的掩蔽特性，由于掩蔽特性的存在，減少了對(duì)量化比特率的要求，不同子帶分配不同的量化比特?cái)?shù)，但對(duì)于各子帶而言，是線性量化。另上 CRC 校驗(yàn)碼，得到標(biāo)準(zhǔn)的 MPEG 碼流。在解碼端，只要解幀，子帶樣值解碼，最后進(jìn)行頻——時(shí)映射還原，最后輸出標(biāo)準(zhǔn) PCM 碼流。其原理方框圖如圖 1 所示：音頻壓縮的成功者——感知編碼

整個(gè)編碼工作過程大致是：

1. 進(jìn)行時(shí)域到頻域的映射。利用 FFT 將時(shí)域數(shù)據(jù)轉(zhuǎn)換到頻域，這樣可以計(jì)算精確的掩蔽域值。

2. 確定最大聲壓級(jí)。在每個(gè)子帶內(nèi)根據(jù)比例因子和頻譜數(shù)據(jù)進(jìn)行計(jì)算。

3. 確定安靜域值。安靜域值也稱絕對(duì)域值，它形成了最低掩蔽邊界。

4. 識(shí)別音調(diào)和非音調(diào)成分。由于信號(hào)中的音調(diào)和非音調(diào)成分的掩蔽域值不同，首先要識(shí)別音調(diào)和非音調(diào)成分，然后分別來進(jìn)行處理。

5. 計(jì)算掩蔽域值。每個(gè)子帶噪聲的掩蔽域值由信號(hào)的掩蔽曲線決定。當(dāng)子帶相對(duì)于臨界頻段比較寬時(shí)，選擇最小域值；當(dāng)其比較窄時(shí)，將覆蓋子帶的域值進(jìn)行平均。

6. 計(jì)算全局掩蔽域值。全局掩蔽域值通過對(duì)相應(yīng)的各子帶掩蔽域值和安靜域值求和得到。

7. 確定最小掩蔽域值�；谌盅诒斡蛑祦泶_定每個(gè)子帶的最小掩蔽域值。

8. 計(jì)算信號(hào)掩蔽率（ SMR ）。最大信號(hào)電平和最小掩蔽域值之間的差異決定了每個(gè)子帶的 SMR 值，這個(gè)值將用于比特分配。

四、結(jié)論

傳統(tǒng)的音頻編碼是表述和度量的問題，感知編碼是生理和感知的問題。傳統(tǒng)的音頻技術(shù)存在于客觀世界，而感知編碼技術(shù)則存在于不可知的心理聲學(xué)世界。到目前為止，隨著數(shù)字信號(hào)處理的出現(xiàn)，音頻工程師們可以利用軟、硬件與人耳一樣來“聽”聲音。但是在任何情況下，所有與這個(gè)主題相關(guān)的問題都必須從人耳的構(gòu)造出發(fā) 。

【音頻壓縮的成功者——感知編碼】相關(guān)文章：

視音頻素材的編碼轉(zhuǎn)換08-06

噪聲圖像的分形壓縮編碼研究08-06

LHARC中的動(dòng)態(tài)限長(zhǎng)編碼壓縮算法08-06

Video Object編碼技術(shù)08-06

對(duì)整體感知　整體把握的感知與把握08-17

成功者的食譜08-17

成功者的語錄01-05

漢字的動(dòng)態(tài)編碼與顯示方案08-06

《數(shù)字編碼》教學(xué)反思04-28

最新推薦

<rt id="6am4y"></rt>

<button id="6am4y"></button>

<button id="6am4y"><bdo id="6am4y"></bdo></button>