爲耳機配備更多人工智能可能是一項挑戰。瞭解稀疏性、量化和内存感知調度等壓縮技術如何幫助鋪平道路。
耳機和助聽器正悄然轉變爲可放入口袋的計算機。在任何一天,它們都需要處理通話雜音、在嘈雜的咖啡館中識别喚醒詞、理解簡短指令,最近還能在擁擠的餐桌上幫助追蹤朋友的聲音。産品團隊希望在不增大電池或使用更昂貴芯片的情況下實現所有這些功能。
訣竅不在於單一的神奇模型或更快的核心,而在於一系列壓縮技術:稀疏性、量化和内存感知調度。這些技術共同使多個小模型能夠實時共存與協作。
無線耳機不斷發展,新增瞭各種功能。
産品經理、高管和工程師需要基於音頻可穿戴設備的實際數據,找到切實可行的方法來思考這一技術組合。這些建議将使他們能夠爲設備帶來更多價值,同時又不超出物料清單(BOM)或功耗預算。
約束條件:必須滿足的要求
現代可聽設備正在融合:真無線立體聲(TWS)耳機增加瞭輔助聆聽功能;助聽器增加瞭連接性和更豐富的用戶體驗;高端耳機則向健康和健身領域邁進。如今典型的 “願望清單” 包括:
用於通話和面對面降噪(如雞尾酒會場景)的實時語音增強
喚醒詞 + 口語理解(SLU)+ 語音 ID,實現免提控制和個性化
反饋消除、自适應均衡壓縮 / 主動降噪(ANC)
生物追蹤 / 活動監測(光電容積脈搏波 / 光學溫度傳感器)
運動追蹤(慣性測量單元 / 加速度計)
設計現實:端到端音頻延遲爲 4-10 毫秒,始終監聽功能必須以微瓦級功耗待機,片上靜态随機存取存儲器(SRAM)容量緊張,閃存占用空間固定。僅憑單一技術無法滿足這些約束,需要多種互補技術協同作用。
壓縮是多元的:真正适用的技術組合
量化:從 32 位浮點(float32)轉爲 8 位整數(INT8)權重可立即減少 4 倍存儲量,並通過更窄的數據路徑節省能耗。許多音頻模型在使用逐通道縮放時,對 INT8 的耐受性強,質量影響極小。量化感知訓練有助於進一步縮小量化與浮點性能之間的差距,隻需額外幾步訓練即可接近量化前的精度。
權重稀疏性:修剪 90% 的權重可使參數存儲量減少約 10 倍(這也能降低 SRAM 漏電),並且當硬件實際跳過零權重時(而非解壓權重矩陣來執行矩陣向量運算),修剪層的乘加運算(MAC)可減少約 10 倍。重要的是,稀疏性應在編譯器和硬件中占據核心地位,否則會因索引 / 打包開銷而無法獲得運行時優勢。
激活稀疏性:語音具有突發性。即使沒有特殊的激活稀疏性損失函數,我們在流音頻模型中也常觀察到約 50%-70% 的稀疏激活(在更安靜的環境中更高),換句話說,當硬件能夠動态跳過零時,運行時 MAC 可減少 2-3.33 倍。在整個網絡中使用人工神經網絡最流行的激活函數之一 —— 修正線性單元(ReLU),會産生零輸出,並在網絡的其餘部分傳播。每個輸出層與零相乘或相加都會産生簡單結果。能夠主動尋找並動态跳過零激活的指令集是利用這一特性的關鍵。
倍增效益:權重和激活稀疏性基本不相關,因此它們對運行時的影響是相乘的。10 倍的權重稀疏性 MAC 減少與 3.3 倍的激活稀疏性減少相結合,可使有效操作減少約 33 倍(未考慮 INT8 效率)。這就是額外模型在存儲和節省吞吐量方面的空間來源。
架構與内存塑形:
精簡爲更小的模型
使用因果時間卷積網絡(TCN)或小狀态循環神經網絡(RNN)模型實現低延遲流處理
融合操作符以減少 SRAM 的傳遞次數
利用激活重用
考慮内存層次結構進行分塊
配置稀疏模式以改善查找開銷和加速 —— 但不要限制過嚴,以免限制矩陣的表達能力和性能
對於多特征系統,共享前端(短時傅裏葉變換 / 差分對數梅爾濾波器組),避免特征重複計算相同的緩沖區。
簡單前饋神經網絡中權重和激活稀疏性的可視化表示。節點代表網絡中的激活,節點之間的連接代表權重。跳過節點零值的操作和減少節點間的連接數分别代表激活稀疏性和權重稀疏性。

簡單前饋神經網絡中權重和激活稀疏性的可視化表示。節點代表網絡中的激活,節點之間的連接代表權重。跳過節點零值的操作和減少節點間的連接數分别代表激活稀疏性和權重稀疏性。
耳機技術組合的具體示例
考慮一個實時時間卷積循環神經網絡(TCRNN)語音增強模型。該模型近 30 層,若沒有外部動态随機存取存儲器(DRAM)在運行時來回交換權重,對大多數硬件平台而言都過於龐大。在密集狀态下,它有約 600 萬個參數,浮點精度下約 24 兆字節。使用 INT8 後,降至約 6 兆字節。結合 90% 的權重稀疏性,權重僅需約 600 千字節;加上約 100 千字節的激活緩沖區(重用時總計約 700 千字節)。從主觀和客觀角度看,其性能堪比更大的模型,但占用空間僅爲後者的一小部分。
這一占用空間足夠小,可與其他功能共存。例如,在 1 兆字節的 SRAM 空間中,可預留約 300 千字節用於喚醒詞 + SLU 路徑(如通過适度稀疏性和 INT8 将約 500 千字節的基線壓縮至約 100 千字節),還剩約 200 千字節用於語音 ID 嵌入、聲音事件檢測器、反饋消除器或 IMU 活動分類模型。
除瞭在單位芯片上提供更多應用外,稀疏性在功耗和延遲方面也真正發揮瞭優勢:去噪器以約 1.2 毫瓦運行時延遲爲 8 毫秒,以約 2.1 毫瓦運行時延遲爲 4 毫秒。對於 100 毫安時的電池,這爲無線電以及其他功能和傳感器留出瞭充足預算,尤其适用於 “情境使用” 模式或高占空比工作負載。

耳機人工智能應用棧的壓縮。90% 的稀疏性可使内存占用減少 10 倍,而精度或性能幾乎不下降。
共享(和調度)至關重要:實用建議
即使是壓縮完美的模型,如果一直運行也會浪費功耗。耳機和助聽器的一個實用模式是門控調度。考慮以下步驟:
始終保持超低功耗監聽器(喚醒詞、瞬态 / 語音活動)運行。這是最小、最省電的模型(包括前端約 200 微瓦)
觸發後,僅在需要時啓動較重的任務(SLU、上下文更新),然後将其轉入 SRAM 保留模式
共享功能並統一前端。去噪器的聲學特征也可用於環境分類或語音 ID。從每個應用中提取所需的最高分辨率快速傅裏葉變換(FFT)(可能是語音增強或聲源分離),並爲低複雜度任務融合 FFT bins,避免重複計算前端。這有助於避免緩沖區過多導緻的問題
保持任何标記器或嵌入量小;緩存用戶語音圖譜,使用低秩适配器進行個性化,而非整個模型分支
對於生物和活動追蹤,依靠壓縮性好的緊湊時間模型(TCNs/RNNs);積極下採樣和壓縮時間窗口。在採樣時採用占空比(心率和體溫無需 24/7 追蹤);當出現較大變化或用戶打開配對的健康 / 健身應用以獲取更高精度時,提高採樣率。活動分類器在 INT8 和适度稀疏性下通常可在 100-200 千字節内運行良好
對流處理使用環形緩沖區,並在任務間重用激活 / 狀态緩沖區,避免 SRAM 碎片化
激活稀疏性在此也有幫助。在有聲段,激活密度随語音起伏;加速器在工作量較小時自然減少工作。
芯片應具備的特性
如果您在評估多特征音頻設備的計算能力,請檢查以下方面:
核心權重和激活稀疏性。僅存儲稀疏權重是不夠的,您需要硬件能夠跳過零權重和零激活,而無需額外解包或開銷
混合精度。大多數層使用高效 INT8(越來越多使用 INT4),激活使用 INT8/16。虛拟化更高位寬精度(将 INT16 和 INT8 操作組合成 24 位)作爲前端等敏感層的應急措施是一個很好的補充,可減輕伴随數字信号處理器(DSP)的負載
與您的並發計劃匹配的片上内存。足夠的 SRAM 用於容納去噪器、監聽器和小型 SLU,以及乒乓緩沖區,而無需頻繁訪問外部内存
流式友好和融合操作符。因果卷積、小狀态 RNN 單元、對新興網絡(如狀态空間模型(SSMs)和滑動窗口注意力)的未來 - proof 自定義操作符支持、突發友好的直接内存訪問(DMA)和多種電源循環模式
稀疏感知工具鏈。考慮修剪、校準、打包和報告有效 MAC(後稀疏性)的分析器,而不僅僅是理論每秒千兆次操作(GOPs)
如今,您可以購買此類專用稀疏加速器。例如,FemtoAI 的 SPU-001 處理器擁有 1 兆字節 SRAM,在 90% 稀疏性下等效内存爲 10 兆字節。採用 22 納米理想節點,面積 3.4 平方毫米。它支持上述技術,並将稀疏性作爲核心特性。
該公司已爲客戶創建瞭大部分人工智能應用棧。當然,您也可以使用通用神經網絡處理器(NPU)知識産權,花費大量令人疲憊、令人頭疼的工程時間來構建類似的稀疏耳機應用棧、工具鏈、編譯器和指令集。無論哪種方式,隻有當稀疏性從訓練到打包再到運行時端到端實現時,才能獲得收益。

FemtoAI 的 SPU-001 芯片
芯片規格確定前的快速規劃清單
列出同時運行的功能及其最壞情況重疊(如去噪 + 喚醒 + SLU + 無線電)
爲每條路徑設置延遲預算(如去噪≤10 毫秒;SLU≤32 毫秒)
選擇量化和修剪目标(如各處使用 INT8 權重;大多數激活使用 INT16,需要時使用虛拟 INT24;在穩定的地方使用 80-90% 稀疏性)
計劃在不同稀疏度級别保存模型檢查點,以形成一條曲線,從中選擇性能與壓縮的平衡點
在實際音頻上驗證激活稀疏性;假設無需特殊損失即可達到約 50%
壓縮前後使用客觀指标(語音的 SNR/STOI/PESQ/HASPI/HASQI/DNSMOS;喚醒詞 / ID 的 F1 分數和誤報率 / 漏報率)進行測量
沿著模型檢查點曲線調整檢測阈值,以滿足性能要求
在闆級早期進行老化測試,包括傳感器、無線電、主機處理器、揚聲器,以及在給定用戶場景中同時運行的最壞情況數量的模型;記錄有效 MAC 並估算熱性能
結語:多功能未來
市場方向明確:可聽設備将充當助手、通信工具、助聽器和健康伴侶。要在小電池和緊張的 BOM 上實現如此廣泛的功能,需将壓縮視爲系統設計原則,而非事後考慮。量化帶來首 4 倍收益,權重稀疏性再增加約 10 倍,激活稀疏性在運行時再乘約 2-3.3 倍。這些收益與合理的調度和共享前端 / 功能相結合,轉化爲每微瓦、每毫米和每美元更多的應用,或在給定預稀疏預算下提升性能。
無論您採用 SPU-001 等以稀疏性爲先的加速器和工具包,還是自行組裝技術棧,原則都是相同的:壓縮不在於單個模型孤立地顯得巧妙,而在於多個模型在同一預算内協作,讓設備真正爲用戶帶來更好體驗。 |