首頁
黨政
- 黨網 · 時政
- 人事
- 反腐
- 理論
- 黨史
- 黨建
要聞
觀點
互動
可視化
地方
- 京
- 津
- 冀
- 晉
- 蒙
- 遼
- 吉
- 黑
- 滬
- 蘇
- 浙
- 皖
- 閩
- 贛
- 魯
- 豫
- 鄂
- 湘
- 粵
- 桂
- 瓊
- 渝
- 川
- 黔
- 滇
- 藏
- 陝
- 甘
- 青
- 寧
- 新
- 鵬
- 雄安
民文
English
合作網站
人工智能
人民網客戶端
網站無障礙
舉報
登錄

退出

人民網>>科普中國

回聲消除技術給智能設備戴上“降噪耳機”

都芃

2025年07月29日09:18 | 來源：科技日報

小字號

用語音操控智能車機，一句話喚醒智能家電，手機智能助手隨叫隨到……憑借便捷、自然的體驗，語音交互正在改變智能時代的生產生活方式。回聲消除是語音交互的核心技術之一，其技術水平決定著人們的語音交互體驗。

不久前，國家知識產權局正式公布第二十五屆中國專利金獎項目名單，科大訊飛股份有限公司（以下簡稱“科大訊飛”）憑借其“基於時延估計的回聲消除方法及裝置”專利入選。該專利技術顯著提升了語音系統中的回聲消除效果，改善了語音系統的實際應用體驗。

找到時延“牛鼻子”

說起回聲，許多人最先想到的場景是，一個人站在山中對著空蕩蕩的山谷大聲呼喊，隨后陣陣回聲傳來。這是聲音傳播受到阻礙，反射回說話人所形成的現象。但語音系統中所說的回聲，更多是由麥克風和揚聲器耦合所致。科大訊飛相關技術負責人張科舉例說：“例如我們在進行一場視頻會議的時候，揚聲器播放出對方說話的聲音，如果我們不有針對性地進行回聲消除，對方說話人的聲音就會被我們的麥克風接收，然后傳送回對方，導致對方在音頻系統中聽到自己說話的回聲。”

要消除回聲，首先就需要讓系統識別出什麼是回聲。張科告訴記者，在理想情況下，可將揚聲器播放前的信號作為基礎來抵消回聲。但現實情況要復雜得多，參考信號與麥克風信號往往存在一定的時延，因此需要准確估計時延，從而矯正對齊信號，這就是經典的基於時延估計的回聲消除方法。

該方法的核心思路是，當麥克風收錄聲音時，系統首先通過時延估計算法精確計算揚聲器聲音到麥克風的傳輸時間差，繼而基於這個關鍵參數構建動態濾波器，將揚聲器回聲從混合信號中精准剝離，最終保留純淨的用戶語音。

例如在用語音控制智能機頂盒時，需要避免電視的聲音回傳給智能機頂盒，導致誤操作。在消除回聲時，可以將機頂盒輸出給電視的音視頻源信號作為參考信號，計算其與麥克風信號之間的時延，進而消除回聲，得到純淨的語音控制聲音。

時延估計又快又准

要准確計算出時延參數並不容易。在真實的語音交互環境中，基於時延估計進行回聲消除通常會面臨三大問題。一是設備振動引起信號變形，疊加交互時的目標人聲，大大影響時延估計准確率。二是揚聲器與麥克風之間的時延並非一成不變，而是受到設備採樣率、音效變聲、網速變化等多種因素影響。因此，如何動態估計時延是又一挑戰。此外，時延估計的最終目的是回聲消除，這要求時延估計准確又及時。如果時延估計不及時，也會導致回聲消除不干淨，系統出現嘯叫、自說自話等現象。

針對上述的三大挑戰，科大訊飛研發團隊在該專利研發中實現了三大創新。針對設備振動引起信號變形和目標人聲疊加難題，團隊首創了基於相似度的異常頻點檢測技術。這項技術能夠在聲音信號中准確排除變形信號以及說話人語音的異常時頻點，從而精准過濾回聲。

時延會受到各種因素影響而產生動態變化。為此，團隊首創統計與瞬時結合的動態時延估計技術，引入瞬時信息決策，應對時延多變問題。應用該技術后，時延估計准確率大幅提升，從60%提升至98%。

張科告訴記者，通過統計與瞬時結合的方法進行時延估計仍存在不准確的問題。團隊經過細致分析發現，要提升准確率，需要先對統計量進行篩選，得到較為准確的瞬時候選位置，然后再與統計量結合。其中，最大的難題是怎麼平衡速度和准確性。“速度快了可能就不夠准確。”張科介紹，團隊通過大量實驗，最終改進了相關方法，靈活選擇更短的窗長，並復用歷史濾波器系數，大幅提高濾波器更新及時性，使得延遲確認時間從40毫秒降低至10毫秒。

可應用於多種場景

該專利技術具備良好的通用性，不僅可用於回聲消除，還可廣泛應用於多類語音場景。例如，其可為手機、汽車、家電等各種多麥克風智能硬件進行語音降噪。在噪聲多樣的工業生產、智能制造場景中，其可用於快速追蹤與識別噪聲。該技術還可應用於醫療領域，幫助聽力輔助設備抑制嘯叫。

張科介紹，目前，該技術已深度融入科大訊飛智能終端產品矩陣，在消費級產品中得到廣泛應用。無論是需要在跨語言溝通中精准捕捉人聲的訊飛翻譯機，還是專注於清晰記錄語音信息的訊飛錄音筆，都已運用相關技術。

下一步，團隊還打算將該技術與深度學習相結合，開展基於數據驅動的模型訓練，以更快的速度得到更加准確的時延估計，從而進一步提升回聲消除效果和降噪能力，以適應更多不同硬件及應用場景。