在2025GAS聲學(xué)大講堂第5期第4講中,馬欄山音視頻實驗室音頻技術(shù)部經(jīng)理李茂全,圍繞 “語音前端技術(shù)揭秘” 帶來了干貨滿滿的深度揭秘分享。由于現(xiàn)場交流時間有限,部分觀眾的提問未能在互動環(huán)節(jié)逐一解答,會后李老師特意以書面形式細致梳理并回復(fù)了這些問題,讓技術(shù)交流的價值進一步延伸。

Q1: 多通道降噪如何處理瞬態(tài)噪聲?
多通道是指話筒陣列,提供了在方位上區(qū)分聲源的可能性。但對噪聲抑制并不都有幫助,例如來自目標人方向的噪聲。語音前端需要抑制的噪聲類型很多,瞬態(tài)類噪聲僅是這些類型之一,傳統(tǒng)算法可以有效區(qū)分和抑制的噪聲類型很有限,但基于神經(jīng)網(wǎng)絡(luò)能很好的處理這些噪聲。例如某視頻會議廠家宣稱產(chǎn)品可以抑制過百種噪聲就是個例子。具體做法可以參考近年涌現(xiàn)的眾多降噪模型。
Q2: 多聲道做降噪的話,AI大概是怎么處理的呢?是直接拿多聲道生成一個單聲道嗎?還是有一個確定的主麥克風(fēng)?
多聲道能帶來根據(jù)波達方向區(qū)分不同聲源的能力,這是整個陣列的所有話筒共同提供的,所以通常沒有特別的主麥克風(fēng)。少數(shù)情況下,對結(jié)構(gòu)特殊的陣列或者針對不同頻段,可能會在整個陣列中對話筒有所選擇。
Q3: 非線性回聲的處理模型有什么推薦么?
降噪模型可以看作是無參考的降噪,為降噪模型增加參考信號輸入后提供的回聲抑制(包括線性和非線性)能力可以看作是有參考的降噪。大部分降噪模型都可以如此增加回聲抑制能力。
Q4: 一些操作系統(tǒng)上的應(yīng)用是不是獲取不到多通道的語音?這種情況只能在DSP芯片中處理么?
不是,與硬件和驅(qū)動程序有關(guān),支持多通道的聲卡種類很多,一般都能用于各種操作系統(tǒng)。
Q5: 麥克風(fēng)本體信噪比會影響到哪些語音模塊的性能?
本體電噪聲接近白噪聲,如果明顯低于環(huán)境背景噪聲就不構(gòu)成影響。如果大于環(huán)境噪聲,會干擾BF的協(xié)方差統(tǒng)計,淹沒語譜的弱成分。但這種白化且穩(wěn)定的噪聲相對容易處理。
Q6: DSP適合處理語音信號嗎?
當(dāng)然。
Q7: 環(huán)境噪聲大于麥克風(fēng)底噪多少dB才能認為沒有影響?
與環(huán)境噪聲譜分布有關(guān),一般認為話筒噪聲譜整體低于環(huán)境噪聲譜10dB以上則可以忽略。
Q8: 使用陣列拾音時,由于定位誤差導(dǎo)致高頻衰減,有沒有好的處理方法?
使用頻率無關(guān)波束,高子帶波束展寬,以及根據(jù)目標信號形成波束主瓣等多種方法。
Q9: 多通道的ai降噪輸出掩碼是針對單通道的還是多通道的,如果是單通道那這個掩碼作用在哪個主通道呢?
通常針對單通道,推薦通過波束形成一個SNR已經(jīng)顯著提升的單通道信號作為掩碼用的信號,如果做不到,對于平面上的陣列可以任選一個通道。也有針對多通道的,使用比較有難度。
Q10:做車載的無麥k歌關(guān)門聲等噪音很大會被錄進去,有什么方法嗎?
參考Q1。
Q11:固定方向的波束形成會考慮用低旁瓣的波束形成器么?
每種性能的提升一般都要以另外某個性能的損失為代價。所以視需求而定,例如主瓣寬度和旁瓣抑制就是這樣的矛盾指標。
Q12:帶麥桿的話務(wù)耳機雙麥環(huán)境降噪有什么好的方案嗎?一般用的是vad+自適應(yīng)濾波器嗎?低信噪比下怎么處理?
這種話筒到人嘴的距離遠小于附近噪聲源,一般SNR不會很低??梢钥紤]差分陣列、自適應(yīng)濾波器、以及差分陣列/指向性話筒+參考話筒+降噪網(wǎng)絡(luò)等。VAD中絕大部分降噪應(yīng)用中都是推薦的。
Q13: AI降噪用在單麥或者雙麥,如何做到小模型,最近遇到要求模型是30~40K的模型
這類低參數(shù)量的模型很多,可以參考影響很大的GTCRN模型。
Q14: IOT設(shè)備的喇叭鏈路THD做不到那么低,算法對大失真的AEC處理對THD最大容忍情況是多大呢?
與要求提供的最大聲壓和揚聲器到話筒的距離都有關(guān)系,如果最大聲壓很低或者距離很遠,那么THD的要求可以降低,具體由實驗確定。
Q15: 嘯叫抑制有成熟方案嗎?
物理上減少聲學(xué)反饋,陷波器、移頻器、濾波器、神經(jīng)網(wǎng)絡(luò),很多方法。

以上僅為本次大講堂觀眾提問的部分問題,更多技術(shù)細節(jié)與深度交流可持續(xù)關(guān)注協(xié)會公眾號。