SNR、SIR、SINR

张开发
2026/4/14 14:46:44 15 分钟阅读

分享文章

SNR、SIR、SINR
在音频和通信领域人们经常把SNR信噪比挂在嘴边但真正让顶尖算法工程师抓狂、也是衡量“目标人提取TSE”算法好坏的终极硬核指标其实是SIR信干比。为了让你彻底明白它的含金量我们必须把“噪声”和“干扰”这两个概念严格区分开并引入通信界最著名的“三兄弟”SNR、SIR、SINR。一、 物理直觉酒吧里的“三种声音”想象你正在一个极其嘈杂的酒吧里试图听清坐你对面的朋友目标说话人在说什么。传进你耳朵里的声音总共分为三类信号 (Signal, S)你朋友说话的声音。这是你唯一想要的。噪声 (Noise, N)酒吧天花板空调的轰鸣声、外面马路上的汽车引擎声。特点它们通常是死板的、连续的稳态噪声或者没有任何语言逻辑的。在时频图上它们是一片杂乱的马赛克。干扰 (Interference, I)坐在你邻桌的那个人正在扯着嗓子大声打电话的声音。特点这就是“竞争说话人” 。他发出的也是完美的人类语音拥有和你朋友一模一样的“谐波梯子”和“共振峰滑轨”。二、 数学公式与“三兄弟”的恩怨情仇在计算时我们用这三种声音的物理能量功率来做除法。1. 信噪比 (SNR: Signal-to-Noise Ratio)SNR10log⁡10(PSignalPNoise)SNR 10 \log_{10} \left( \frac{P_{Signal}}{P_{Noise}} \right)SNR10log10​(PNoise​PSignal​​)现实意义衡量你的声音比“没有生命的机器底噪”大多少。算法难度简单/中等。哪怕 SNR 很低比如−5 dB-5\text{ dB}−5dB风噪比人声大算法只要开启“寻找谐波梯子”的过滤网就能把无规则的 N 轻松滤除。2. 信干比 (SIR: Signal-to-Interference Ratio)SIR10log⁡10(PSignalPInterference)SIR 10 \log_{10} \left( \frac{P_{Signal}}{P_{Interference}} \right)SIR10log10​(PInterference​PSignal​​)现实意义衡量你的声音比“旁边那个人说话的声音”大多少。算法难度地狱级。当 SIR 很低时两个人的共振峰在空气中死死地交织在一起。因为干扰信号I也具备完美的人声特征传统的降噪算法会把干扰人的声音也当成宝贵的人声保护起来。3. 信号与干扰加噪声比 (SINR)SINR10log⁡10(PSignalPInterferencePNoise)SINR 10 \log_{10} \left( \frac{P_{Signal}}{P_{Interference} P_{Noise}} \right)SINR10log10​(PInterference​PNoise​PSignal​​)这是最真实、最严苛的指标。分母是环境里所有不利因素的总和。你在真实世界里感受到的“能不能听清”其实是由 SINR 决定的。三、 为什么 SIR 是现代语音算法的“终极考卷”如果一篇论文只敢贴出自己的 SNR 提升了多少那它只是做了一个普通的“降噪Noise Reduction”如果一篇论文敢大篇幅展示自己把SIR提升了多少那它做的是难度极高的 “盲源分离BSS” 或 “目标人提取TSE”。在极低 SIR比如别人说话声音比你还大的情况下AI 必须求助于内耳麦克风IEM或骨导传感器提供的那个纯净基频锚点。内耳麦克风最大的贡献就是它物理上天然拥有极高的 SIR别人的声音传不进你的骨头AI 借此才能在外部麦克风那混乱的“双重人声”中把你的声音从别人的声音里生生剥离出来。

更多文章