24小時(shí)聯(lián)系電話:18217114652、13661815404
中文
技術(shù)專題
語(yǔ)音控制系統(tǒng)中的功耗降低
語(yǔ)音控制系統(tǒng)中的功耗降低
僅使用語(yǔ)音來(lái)控制機(jī)器的能力已成為許多商業(yè)和消費(fèi)者系統(tǒng)中的流行功能。但是語(yǔ)音控制的問題在于設(shè)備必須始終處于監(jiān)聽狀態(tài),這意味著必須始終為其供電。不過,新的選擇正在不斷涌現(xiàn),它們可以幫助設(shè)計(jì)人員減少語(yǔ)音激活設(shè)計(jì)的功耗。
使機(jī)器對(duì)口頭命令做出適當(dāng)響應(yīng)是一個(gè)巨大的處理挑戰(zhàn)。它要求系統(tǒng)首先有一個(gè)麥克風(fēng)來(lái)拾取聲音,一個(gè)數(shù)字轉(zhuǎn)換器將聲音轉(zhuǎn)換成處理器可以使用的東西,然后進(jìn)行大量的數(shù)字信號(hào)處理以從聲音中提取語(yǔ)音信息。涉及的處理量將取決于需要識(shí)別的命令字的數(shù)量。詞匯量有限的系統(tǒng)可以使用圖1中所示的結(jié)構(gòu)進(jìn)行本地處理,以進(jìn)行單詞發(fā)現(xiàn),而需要自然語(yǔ)音理解的系統(tǒng)可以使用云計(jì)算資源進(jìn)行進(jìn)一步處理。
圖1典型的語(yǔ)音控制系統(tǒng)必須不斷處理聲音以尋找命令字
不幸的是,大多數(shù)時(shí)候沒有語(yǔ)音發(fā)生,并且浪費(fèi)了處理和消耗的功率。通過要求用戶首先按下按鈕等來(lái)啟動(dòng)語(yǔ)音處理,可以避免浪費(fèi)。但是,如果僅通過語(yǔ)音激活系統(tǒng),則必須始終捕獲并處理聲音,以免丟失命令。這對(duì)于電池供電的應(yīng)用特別引起關(guān)注,因?yàn)檎Z(yǔ)音處理的“始終在線”性質(zhì)可能會(huì)消耗大量電池。
為了減少浪費(fèi)的精力并節(jié)省功率,語(yǔ)音處理系統(tǒng)通常會(huì)使用“喚醒”字進(jìn)行激活。這種方法所需的功率較小,因?yàn)樵诖蠖鄶?shù)情況下,語(yǔ)音處理只需要能夠識(shí)別單個(gè)特定單詞,而不是其全部功能詞匯。因此,該系統(tǒng)可以在偵聽喚醒字的同時(shí)運(yùn)行更簡(jiǎn)單,耗電更少的處理算法,從而暫停整個(gè)語(yǔ)音處理工作,直到檢測(cè)到喚醒字為止。
為了追求這種方法,業(yè)界已經(jīng)投入大量精力來(lái)開發(fā)需要最小功率的喚醒單詞引擎。通常,這些引擎只能識(shí)別幾個(gè)單詞,從而為用戶提供可能的喚醒選項(xiàng)的選擇。但是,某些引擎可以識(shí)別足夠多的單詞,以提供有限形式的語(yǔ)音控制,從而提供多個(gè)命令。但是,對(duì)于更復(fù)雜的語(yǔ)音控制,喚醒詞引擎的目的只是為了及時(shí)激活功能更強(qiáng)大,更耗電的處理,以接收和解釋將跟隨喚醒詞的語(yǔ)音命令。
這些喚醒詞引擎在不斷發(fā)展。最近的一項(xiàng)介紹是將Retune的VoiceSpot單詞斑點(diǎn)算法與CEVA的低功耗DSP系列配對(duì)。該組合可以執(zhí)行波束成形和聲學(xué)回聲消除,以提高在存在噪聲的情況下單詞識(shí)別以及喚醒單詞識(shí)別的可靠性。該算法的總內(nèi)存占用量不到80 KB,主要針對(duì)較小的,由電池供電的應(yīng)用,例如耳塞,智能手表和運(yùn)動(dòng)相機(jī)。
另一個(gè)最新的介紹將Cyberon的CSpotter算法與瑞薩的RA6系列微控制器結(jié)合使用。該算法使用基于音素的建模,支持30多種語(yǔ)言。它可以用作喚醒引擎或使用多個(gè)不同的命令集提供本地語(yǔ)音控制。該處理器為數(shù)字麥克風(fēng)提供I 2 S(IC間聲音)接口,從而無(wú)需ADC。
兩種方法盡管已將語(yǔ)音識(shí)別任務(wù)減至最少,但仍依靠數(shù)字信號(hào)處理來(lái)進(jìn)行喚醒詞識(shí)別。這為始終接通的電源需求設(shè)置了下限,這在電池供電的應(yīng)用中可能仍然很麻煩。但是,還有另一種技術(shù)可以為始終在線的喚醒字識(shí)別節(jié)省更多功率。
模擬機(jī)器學(xué)習(xí)技術(shù)是關(guān)鍵。RAMP(可重配置模擬模塊化處理器)芯片,首先將聲音識(shí)別為語(yǔ)音,然后再嘗試確定語(yǔ)音是否在說(shuō)喚醒詞。RAMP芯片允許系統(tǒng)執(zhí)行的操作是,在執(zhí)行任何語(yǔ)音處理之前,先確定所檢測(cè)到的聲音實(shí)際上是語(yǔ)音。如圖2所示,這種預(yù)先確定甚至可以使喚醒單詞引擎在沒有人講話時(shí)也保持休眠狀態(tài)。
圖2通過首先確定聲音是否是語(yǔ)音,RAMP芯片允許語(yǔ)音處理安全地忽略其他類型的聲音。
該芯片使用模擬神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)這一目標(biāo),該模擬神經(jīng)網(wǎng)絡(luò)經(jīng)過訓(xùn)練可以將人的聲音與其他聲音區(qū)分開,然后向聲音處理系統(tǒng)發(fā)送激活信號(hào),以確定聲音是否在說(shuō)喚醒詞。為了確保語(yǔ)音處理具有完整的語(yǔ)音模式,芯片將在預(yù)卷式緩存中緩存500毫秒的捕獲聲音。當(dāng)芯片將聲音識(shí)別為語(yǔ)音時(shí),它會(huì)將傳入的聲音(從前滾動(dòng)數(shù)據(jù)開始)定向到語(yǔ)音處理系統(tǒng)以進(jìn)行解釋。
這種方法允許語(yǔ)音控制系統(tǒng)僅使RAMP芯片持續(xù)供電。每當(dāng)沒有人講話時(shí),語(yǔ)音處理硬件(包括喚醒詞引擎)就可以保持休眠狀態(tài)。在大多數(shù)情況下,沒有語(yǔ)音的時(shí)間段表示系統(tǒng)運(yùn)行的大部分時(shí)間。與喚醒字檢測(cè)所需的典型數(shù)十毫安電流相比,RAMP芯片和主機(jī)微控制器僅需要約25μA的電流。因此,與始終在線的喚醒字檢測(cè)相比,忽略靜音和非語(yǔ)音聲音的能力可以節(jié)省大量功率。
語(yǔ)音控制中的這種降低功率的創(chuàng)新很可能會(huì)繼續(xù)發(fā)生,從而將語(yǔ)音激活操作的潛力擴(kuò)展到從線路供電到電池供電設(shè)計(jì)的應(yīng)用中。無(wú)論通過語(yǔ)音控制給定設(shè)備是一個(gè)好主意,無(wú)論其電源如何,它都已成為一種實(shí)用的選擇。