在2025GAS聲學(xué)大講堂第5期第4講中,馬欄山音視頻實(shí)驗(yàn)室音頻技術(shù)部經(jīng)理李茂全,圍繞 “語(yǔ)音前端技術(shù)揭秘” 帶來(lái)了干貨滿滿的深度揭秘分享。由于現(xiàn)場(chǎng)交流時(shí)間有限,部分觀眾的提問(wèn)未能在互動(dòng)環(huán)節(jié)逐一解答,會(huì)后李老師特意以書面形式細(xì)致梳理并回復(fù)了這些問(wèn)題,讓技術(shù)交流的價(jià)值進(jìn)一步延伸。

Q1: 多通道降噪如何處理瞬態(tài)噪聲?
多通道是指話筒陣列,提供了在方位上區(qū)分聲源的可能性。但對(duì)噪聲抑制并不都有幫助,例如來(lái)自目標(biāo)人方向的噪聲。語(yǔ)音前端需要抑制的噪聲類型很多,瞬態(tài)類噪聲僅是這些類型之一,傳統(tǒng)算法可以有效區(qū)分和抑制的噪聲類型很有限,但基于神經(jīng)網(wǎng)絡(luò)能很好的處理這些噪聲。例如某視頻會(huì)議廠家宣稱產(chǎn)品可以抑制過(guò)百種噪聲就是個(gè)例子。具體做法可以參考近年涌現(xiàn)的眾多降噪模型。
Q2: 多聲道做降噪的話,AI大概是怎么處理的呢?是直接拿多聲道生成一個(gè)單聲道嗎?還是有一個(gè)確定的主麥克風(fēng)?
多聲道能帶來(lái)根據(jù)波達(dá)方向區(qū)分不同聲源的能力,這是整個(gè)陣列的所有話筒共同提供的,所以通常沒(méi)有特別的主麥克風(fēng)。少數(shù)情況下,對(duì)結(jié)構(gòu)特殊的陣列或者針對(duì)不同頻段,可能會(huì)在整個(gè)陣列中對(duì)話筒有所選擇。
Q3: 非線性回聲的處理模型有什么推薦么?
降噪模型可以看作是無(wú)參考的降噪,為降噪模型增加參考信號(hào)輸入后提供的回聲抑制(包括線性和非線性)能力可以看作是有參考的降噪。大部分降噪模型都可以如此增加回聲抑制能力。
Q4: 一些操作系統(tǒng)上的應(yīng)用是不是獲取不到多通道的語(yǔ)音?這種情況只能在DSP芯片中處理么?
不是,與硬件和驅(qū)動(dòng)程序有關(guān),支持多通道的聲卡種類很多,一般都能用于各種操作系統(tǒng)。
Q5: 麥克風(fēng)本體信噪比會(huì)影響到哪些語(yǔ)音模塊的性能?
本體電噪聲接近白噪聲,如果明顯低于環(huán)境背景噪聲就不構(gòu)成影響。如果大于環(huán)境噪聲,會(huì)干擾BF的協(xié)方差統(tǒng)計(jì),淹沒(méi)語(yǔ)譜的弱成分。但這種白化且穩(wěn)定的噪聲相對(duì)容易處理。
Q6: DSP適合處理語(yǔ)音信號(hào)嗎?
當(dāng)然。
Q7: 環(huán)境噪聲大于麥克風(fēng)底噪多少dB才能認(rèn)為沒(méi)有影響?
與環(huán)境噪聲譜分布有關(guān),一般認(rèn)為話筒噪聲譜整體低于環(huán)境噪聲譜10dB以上則可以忽略。
Q8: 使用陣列拾音時(shí),由于定位誤差導(dǎo)致高頻衰減,有沒(méi)有好的處理方法?
使用頻率無(wú)關(guān)波束,高子帶波束展寬,以及根據(jù)目標(biāo)信號(hào)形成波束主瓣等多種方法。
Q9: 多通道的ai降噪輸出掩碼是針對(duì)單通道的還是多通道的,如果是單通道那這個(gè)掩碼作用在哪個(gè)主通道呢?
通常針對(duì)單通道,推薦通過(guò)波束形成一個(gè)SNR已經(jīng)顯著提升的單通道信號(hào)作為掩碼用的信號(hào),如果做不到,對(duì)于平面上的陣列可以任選一個(gè)通道。也有針對(duì)多通道的,使用比較有難度。
Q10:做車載的無(wú)麥k歌關(guān)門聲等噪音很大會(huì)被錄進(jìn)去,有什么方法嗎?
參考Q1。
Q11:固定方向的波束形成會(huì)考慮用低旁瓣的波束形成器么?
每種性能的提升一般都要以另外某個(gè)性能的損失為代價(jià)。所以視需求而定,例如主瓣寬度和旁瓣抑制就是這樣的矛盾指標(biāo)。
Q12:帶麥桿的話務(wù)耳機(jī)雙麥環(huán)境降噪有什么好的方案嗎?一般用的是vad+自適應(yīng)濾波器嗎?低信噪比下怎么處理?
這種話筒到人嘴的距離遠(yuǎn)小于附近噪聲源,一般SNR不會(huì)很低??梢钥紤]差分陣列、自適應(yīng)濾波器、以及差分陣列/指向性話筒+參考話筒+降噪網(wǎng)絡(luò)等。VAD中絕大部分降噪應(yīng)用中都是推薦的。
Q13: AI降噪用在單麥或者雙麥,如何做到小模型,最近遇到要求模型是30~40K的模型
這類低參數(shù)量的模型很多,可以參考影響很大的GTCRN模型。
Q14: IOT設(shè)備的喇叭鏈路THD做不到那么低,算法對(duì)大失真的AEC處理對(duì)THD最大容忍情況是多大呢?
與要求提供的最大聲壓和揚(yáng)聲器到話筒的距離都有關(guān)系,如果最大聲壓很低或者距離很遠(yuǎn),那么THD的要求可以降低,具體由實(shí)驗(yàn)確定。
Q15: 嘯叫抑制有成熟方案嗎?
物理上減少聲學(xué)反饋,陷波器、移頻器、濾波器、神經(jīng)網(wǎng)絡(luò),很多方法。

以上僅為本次大講堂觀眾提問(wèn)的部分問(wèn)題,更多技術(shù)細(xì)節(jié)與深度交流可持續(xù)關(guān)注協(xié)會(huì)公眾號(hào)。