24小時(shí)聯(lián)系電話:18217114652、13661815404
中文
公司新聞
嵌入式媒體處理中的語(yǔ)音處理模型
嵌入式媒體處理中的語(yǔ)音處理模型
語(yǔ)音和音頻處理都處理可聽(tīng)數(shù)據(jù),盡管語(yǔ)音處理的頻率范圍是 20 Hz 到 4 kHz,而音頻處理的頻率范圍是 20 Hz 到 20 kHz。語(yǔ)音和音頻處理之間有一個(gè)主要區(qū)別:語(yǔ)音壓縮機(jī)制基于人類聲帶,而音頻壓縮機(jī)制基于人耳系統(tǒng)。
語(yǔ)音處理是數(shù)字信號(hào)處理的一個(gè)子集。人類聲道的某些特性與一些數(shù)學(xué)技術(shù)一起使用來(lái)實(shí)現(xiàn)語(yǔ)音信號(hào)的壓縮,以便通過(guò) VoIP 和蜂窩網(wǎng)絡(luò)傳輸數(shù)據(jù)。
語(yǔ)音處理大致分為:
語(yǔ)音編碼:通過(guò)刪除數(shù)據(jù)中的冗余來(lái)壓縮語(yǔ)音以減少數(shù)據(jù)大小以用于存儲(chǔ)和流式傳輸。
語(yǔ)音識(shí)別:算法識(shí)別口語(yǔ)單詞并將其轉(zhuǎn)換為文本的能力。
說(shuō)話人驗(yàn)證/識(shí)別:用于銀行業(yè)的安全應(yīng)用,以確定說(shuō)話人的身份。
語(yǔ)音增強(qiáng):用于消除噪音和增加增益,使錄制的語(yǔ)音更清晰。
語(yǔ)音合成:人工生成人類語(yǔ)音以進(jìn)行文本到語(yǔ)音的轉(zhuǎn)換。
從語(yǔ)音處理的角度剖析人類聲帶
人耳對(duì) 50 Hz 至 4 KHz 之間的能量信號(hào)最為敏感。語(yǔ)音信號(hào)由聲音序列組成。當(dāng)空氣被擠出肺部時(shí),聲道的聲學(xué)激發(fā)產(chǎn)生聲音/語(yǔ)音信號(hào)。肺在言語(yǔ)產(chǎn)生過(guò)程中充當(dāng)供氣設(shè)備。聲帶(如下圖所示)實(shí)際上是改變聲門面積的兩層膜。當(dāng)我們呼吸時(shí),聲帶保持打開(kāi)狀態(tài),但當(dāng)我們說(shuō)話時(shí),它們會(huì)打開(kāi)和關(guān)閉。
當(dāng)空氣被擠出肺部時(shí),聲帶附近的氣壓就會(huì)升高。一旦氣壓達(dá)到某個(gè)閾值,聲帶/褶皺就會(huì)打開(kāi),空氣流過(guò)它們會(huì)導(dǎo)致膜振動(dòng)。聲帶振動(dòng)的頻率取決于聲帶的長(zhǎng)度和聲帶的張力。該頻率稱為基頻或音調(diào)頻率,它定義了人類的音調(diào)。統(tǒng)計(jì)發(fā)現(xiàn)人類的基頻在以下范圍內(nèi):
男士 50 Hz 至 200 Hz
150 Hz 至 300 Hz 女性和
兒童 200 Hz 至 400 Hz
人類的語(yǔ)音可以大致分為三種類型的聲音:
濁音:當(dāng)空氣從肺部流過(guò)聲道時(shí),聲帶振動(dòng)產(chǎn)生的聲音,例如 a、b、m、n 等。濁音帶有低頻成分。在濁音產(chǎn)生期間,聲帶大部分時(shí)間是閉合的。
清音:聲帶不振動(dòng)的清音??諝馔ㄟ^(guò)聲道的持續(xù)流動(dòng)會(huì)產(chǎn)生清音,例如 shh、sss、f 等。清音帶有高頻分量。在清音產(chǎn)生期間,聲帶大部分時(shí)間是開(kāi)放的。
其他聲音:這些聲音可以分類為:
鼻音:聲帶與鼻道在聲學(xué)上耦合,即通過(guò)鼻孔和嘴唇發(fā)出的聲音,例如 m、n、ing 等。
爆破音:這些聲音是聲道前部閉合處附近壓力的積累和突然釋放的結(jié)果,例如 p、t、b 等
聲道的橫截面積根據(jù)我們打算產(chǎn)生的聲音而變化。共振峰頻率可以定義為能量高度集中的頻率。統(tǒng)計(jì)上,已經(jīng)觀察到對(duì)于每 kHz 大約有一個(gè)共振峰頻率。因此,我們可以在 4 KHz 的人類語(yǔ)音頻率范圍內(nèi)觀察到總共 3-4 個(gè)共振峰頻率。
由于人類語(yǔ)音的帶寬為 0 到 4
KHz,我們基于奈奎斯特準(zhǔn)則以 8 KHz 對(duì)語(yǔ)音信號(hào)進(jìn)行采樣以避免混疊。
語(yǔ)音制作模型
根據(jù)語(yǔ)音信號(hào)(濁音或清音)的內(nèi)容,語(yǔ)音信號(hào)包括一系列脈沖(對(duì)于濁音)或隨機(jī)噪聲(對(duì)于清音)。這個(gè)信號(hào)頻譜在聲道中移動(dòng)。聲道充當(dāng)頻譜整形濾波器,即聲道的頻率響應(yīng)被施加到傳入語(yǔ)音信號(hào)上。聲道的形狀和大小決定了頻率響應(yīng),從而決定了人聲的差異。
開(kāi)發(fā)準(zhǔn)確的語(yǔ)音生成模型需要開(kāi)發(fā)基于語(yǔ)音過(guò)濾器的人類語(yǔ)音生成機(jī)制模型。假定激發(fā)源和聲道是相互獨(dú)立的。因此,它們都是單獨(dú)建模的。為了對(duì)聲道進(jìn)行建模,假設(shè)聲道在 10 毫秒的時(shí)間段內(nèi)具有定義的特征。因此,每 10 毫秒一次,聲道配置會(huì)發(fā)生變化,從而產(chǎn)生新的聲道參數(shù)(即共振/共振峰頻率)
要建立準(zhǔn)確的語(yǔ)音生成模型,必須建立基于語(yǔ)音濾波器的模型。該模型必須準(zhǔn)確地表示以下內(nèi)容:
人類語(yǔ)言產(chǎn)生機(jī)制的激發(fā)技術(shù)。
唇鼻發(fā)聲過(guò)程。
聲道的復(fù)雜操作。
濁音和
無(wú)聲的講話。
S(z) = E(z) * G(z) * A*V(z) * R(z)
在哪里:
S(z) => 模型輸出的語(yǔ)音
E(z) => 激勵(lì)模型
G(z) => 聲門模型
A => 增益因子
V(z) => 聲帶模型
R(z) => 輻射模型
激勵(lì)模型:模型的激勵(lì)函數(shù)的輸出將根據(jù)產(chǎn)生的語(yǔ)音的特征而變化。
在濁音過(guò)程中,激勵(lì)將由一系列脈沖組成,每個(gè)脈沖以基音周期的間隔間隔開(kāi)。
在清音過(guò)程中,激勵(lì)將是白噪聲/隨機(jī)噪聲類型的信號(hào)。
聲門模型:聲門模型專門用于人類語(yǔ)音的濁音部分。聲門流在語(yǔ)音識(shí)別和語(yǔ)音合成機(jī)制中區(qū)分說(shuō)話者。
增益系數(shù):聲音的能量取決于增益系數(shù)。通常,濁音的能量比清音的能量大許多倍。
聲道模型:一連串無(wú)損管(短而圓柱形)構(gòu)成聲道的基礎(chǔ)/模型(如下圖 4所示),每個(gè)管都有自己的共振頻率。無(wú)損管的設(shè)計(jì)因人而異。共振頻率取決于管子的形狀,因此不同人的聲音也不同。
上述聲道模型通常用于低比特率語(yǔ)音編解碼器、語(yǔ)音識(shí)別系統(tǒng)、說(shuō)話人認(rèn)證/識(shí)別系統(tǒng)以及語(yǔ)音合成器。為每一幀語(yǔ)音導(dǎo)出聲道模型的系數(shù)是必不可少的。用于導(dǎo)出語(yǔ)音編解碼器中聲道模型系數(shù)的典型技術(shù)是線性預(yù)測(cè)編碼 (LPC)。LPC 聲碼器可以實(shí)現(xiàn) 1.2 到 4.8 kbps 的比特率,因此被歸類為低質(zhì)量、中等復(fù)雜度和低比特率算法。
使用 LPC,我們可以從過(guò)去的語(yǔ)音樣本中導(dǎo)出當(dāng)前的語(yǔ)音樣本值。
在時(shí)域中,語(yǔ)音方程可以粗略表示如下:
當(dāng)前語(yǔ)音樣本 = [(系數(shù) X 過(guò)去的語(yǔ)音樣本)+ 增益修正的激勵(lì)]
概括
語(yǔ)音信號(hào)的特性取決于人類語(yǔ)音產(chǎn)生系統(tǒng)。語(yǔ)音生成模型源自人類語(yǔ)音生成系統(tǒng)的基本原理。
因此,了解人類語(yǔ)音生成系統(tǒng)的特征對(duì)于設(shè)計(jì)語(yǔ)音壓縮、語(yǔ)音合成和語(yǔ)音識(shí)別技術(shù)的算法至關(guān)重要。語(yǔ)音生成模型用于將模擬語(yǔ)音轉(zhuǎn)換為數(shù)字形式,以通過(guò)電話應(yīng)用程序(蜂窩電話、有線電話和互聯(lián)網(wǎng)上的 VoIP 流)、文本到語(yǔ)音轉(zhuǎn)換、語(yǔ)音編碼以通過(guò)壓縮有效利用帶寬將語(yǔ)音信號(hào)降低比特率以在相同帶寬內(nèi)容納更多用戶。