AN547 - 为什么您需要高性能、超高 SNR MEMS 麦克风
摘要
自动语音识别系统的普及以及视频内容共享信息和体验的使用正在急剧增加。用于捕捉声音的麦克风必须拥有很高的性能和质量才能确保出色的用户体验。关键因素包括噪声、失真、频率响应和组件匹配。本应用指南重点介绍信噪比 (SNR) 和声学过载点 (AOP),并解释在语音识别和音频/视频采集系统中具有高性能麦克风的好处。
信噪比 (SNR)
麦克风输出中的噪音可以被定义为任何不是预期输入源的信号,并且通常被认为是输出信号中不需要的元素。噪音等级越高,音频信号质量越差。噪音可以来自麦克风外部,也可以源自麦克风本身。人们通常会听到麦克风的自身噪音会发出影响感知音质的嘶嘶声。对于算法,噪音会降低信号的保真度,从而降低系统性能。
麦克风的噪音可以用不同的方式表达:
• 自身噪音 (Vrms、dBV、dBFS)是麦克风本身不受外部声音激励时产生的均方根噪音电压。
• 信噪比,即 SNR (dB) 描述了麦克风相对于预期输入信号的自身噪音。通常使用标准化的声学输入信号来测量 SNR 以表示想要的声音,即 94 dBSPL (1 Pa) 正弦波。
• 等效输入噪音,即 EIN (dBSPL) 是进入麦克风的(虚拟)噪音等级,其等于麦克风输出端的电噪音等级。
电 SNR (dBV)
• 电气输出 - 自身噪音
声学 SNR (dBSPL)
• 声学输入 – EIN
声学过载点 (AOP)
所有现实生活中的音频传感器都是非线性系统,因为它们将内容添加到通过它们的信号中。在失真的情况下,添加的内容位于原始信号中存在的频率谐波中。失真通常以总谐波失真 THD(如果包括自身噪音,则为 THD + N)来衡量。当麦克风被正弦波激励时,它是信号谐波(通常是第二到第五)中的能量与基频中能量的比值。测试信号通常是在相对较高声压级 (SPL) 下的 1 kHz 正弦信号,通常为 94 dBSPL 或更高。THD 以百分比 (%) 表示。
声学过载点,即 AOP 通常定义为 THD 超过 10% 时的声压级。AOP 的单位是 dBSPL。在大多数情况下,保留传入麦克风的声音的原始形式和内容会很有益,而且非常重要。如果对原始信号添加诸如失真之类的内容,可能使听到捕获的声音的人感觉不舒服。增加的能量越多(即 THD 越高),感知的音频质量就越差。失真也可能会混淆语音识别系统等算法,这些算法对输入信号的内容进行非常详细的分析。
麦克风性能对录音的重要性
信噪比对录音的重要性
音频/视频录制的目标是捕捉来自主体的传入声音并在麦克风系统的输出中重现它。当录音用于人耳时,希望电输出信号尽可能地与声学信号匹配,从而提供“自然”的声音录制。麦克风及其 SNR 是声音捕获信号链的关键部分,影响录音质量。下表列出了一些典型用例。
用例|细节和挑战
家庭 视频 – 通常,家庭是一个安静的环境,麦克风噪音很容易占据主导地位。不断变化的捕获和回放条件与设备。
儿童 – 拍摄的物体是移动的,并具有柔和(安静)的声音。
社交媒体 – 视频质量要求非常高,以便最大限度地提高观众参与度
专业视频 - 工作申请、工作面试、人才介绍、演讲等。高质量视频对于区分申请人或企业与其他人至关重要。
音乐 – 高音质对于确保自然的声音录制非常重要。不断变化的捕获和回放条件非常具有挑战性。
表演 – 例如,学校演出可能具有挑战性:安静的声音、距离长,还有环境噪音。
自然 – 录制的声音可能处于低或很低的声压级。
监控 – 捕获的声音可能很安静,并可以从很远的距离传来。
在自由场中,距离每增加一倍,声压减半(降低 6 dB)。捕获的声源越远,到达麦克风的声音信号越安静。由于麦克风的自身噪音实际上是恒定的,传入信号水平降低会导致麦克风的输出信号 SNR 降低。通常,必须将弱信号放大,才能使其达到设备信号路径的适当水平。放大信号还会放大输出中存在的噪音。放大倍数越大,噪音上升到显著降低捕获信号质量水平的风险越高。
高麦克风 SNR 有助于在信号放大时保持本底噪音。捕获距离越长,麦克风自身噪音应该越低,以避免问题。当距离很长,声源本身很安静时,这一点尤其重要。由于距离每增加一倍声压会衰减 6 dB,因此使用 SNR 高于 6 dB 的麦克风可以使捕获距离加倍,而不会降低信号质量。POLQA(感知目标聆听质量评估)是一种 ITU-T 标准模型,它使用数字语音分析客观确定录制语音信号的质量和可理解性。SNR 高的麦克风在 POLQA 测试中表现得更好,并且具有出众的语音清晰度。使用 SNR 更高的麦克风录制时,同一级别的信号更易于理解。
回放条件和视频图像质量会影响感知的噪音级别。
• 回放环境中的环境噪音级别
• 回放音量
• 听音设备的质量(例如噪音和频率响应)
• 高视频质量要求具有高音质,以避免降低整体音频/视频质量
声学过载点对录音的重要性
就像 SNR 一样,AOP 是一个重要的音频/视频质量因素。失真很容易使录像无用。网上有很多智能手机视频是在流行音乐/摇滚音乐会中拍摄的,但由于音频严重失真而无法观看。如果预期声音(或干扰)的传入声压级高或非常高,则高 AOP 可改善音质。即使平均声压级不是很高,高 AOP 也能帮助麦克风系统处理可能出现在传入声信号中的非常高的信号峰值。请参见下表中的一些典型用例。
用例|细节和挑战
流行/摇滚音乐会 – 音乐会通常声音很大。高音质是良好和自然音质表现录音的关键因素。
体育赛事 – 体育运动(例如赛车运动)或人群(例如冰球竞技场)发出的声音非常大。
交通 – 很多低频噪音。
风 – 风是导致户外拍摄的音频/视频音质差的常见原因。高 AOP 可以在某些风况下提供帮助。
直到几年前,消费电子设备麦克风 AOP 的标准水平在 110 和 120 dBSPL 之间。最近,AOP 的要求有所提高。为了确保音质和语音识别性能满足客户需求,设备设计人员应该选择 AOP 更接近 130 dBSPL 或更高的更好麦克风。
在较低的声压级下,查看较低的 THD 级别比 AOP 指定的 10% 更有意义。除了具有较高的 AOP 之外,THD 仍然保持在低于 2%(对于预期应用达到足够高的声压级,例如高达 120 dBSPL)的水平也很重要。
麦克风性能对语音识别的重要性
如果在某个系统中,捕获的声音用于算法,音质目标可能与信号用于人耳时不同。只要对算法进行优化,信号不一定必须要听起来自然。无论使用情况如何,信号保持没有干扰、伪影、失真和噪音总是很重要。
自动语音识别 (ASR) 是将语音信号自动转录成书面文字的任务。转录的准确性正在接近人类水平,约为 95%。但是,到目前为止,只有在环境条件良好的实验室中才能达到这一水平。
语音识别在现实环境和远距离环境中涉及一些重要的声学挑战,例如背景噪声、混响、回声消除和麦克风定位。只有良好的语音识别引擎是不够的。系统中的每个元素都应该以高标准执行,以防止出现质量瓶颈。麦克风的工作是为语音识别系统提供尽可能好的输入信号。高质量输入信号有助于 ASR 系统分析传入的声音并找出其中可识别语音内容的特征。关键参数是噪声、失真、频率响应和相位。
高 AOP 可以帮助大声环境中的语音识别系统。有时,语音信号本身的声音并不大,但还有其他干扰。例如,在语音受控的家庭娱乐系统中,存在靠近麦克风的扬声器,以及可能输出响亮的音乐或口头信息的数字助理。高 AOP 有助于保持低失真并改善噪音和回声的消除效果。
到语音源的距离越长,被馈送到 ASR 算法的信号的信噪比就越低。因此,当预期的捕获距离较长时,麦克风 SNR 应该更高。
麦克风性能对噪音消除算法的重要性
语音识别系统的关键功能是能够忽略那些不是要转录的语音的声音和噪音。通过从信号中排除不需要的声音,音频/视频捕获和人与人之间的通信质量也可以提高。目标是增加 SNR,在这种情况下,是所需声音(信号)与不需要的环境声音(噪音)的比率。
噪音消除和方向性可以通过将多个麦克风与算法结合使用来实现。定向麦克风系统(例如波束形成)可以将麦克风的灵敏度集中到所需方向,并突出显示所需声源。也可以根据两个麦克风之间的电平差异等参数消除不需要的声音。盲源分离是一种更复杂的降噪系统。它可以消除与方向、距离和位置无关的噪音。所有这些噪音消除方法都可以从收到的信号的准确性和高质量中受益。麦克风应该具有高 SNR、低失真、平坦的频率响应(也改善了相位响应)和低群延时。
为了优化噪音消除算法的功能,系统中使用的麦克风应具有相同的属性。麦克风对麦克风匹配的作用至关重要。从麦克风到麦克风的灵敏度、相位行为和延迟差异越小越好。
总结
从 2005 年到 2015 年,大众消费电子设备中最先进麦克风的 SNR 从低于 60dB 提高到约 65dB。随着新型高性能语音识别系统和其他捕获用例的需求出现,甚至 65 dB 也已经不够。目前的高端麦克风的 SNR 接近 70 dB。
高性能麦克风是高质量语音识别和音频捕获的关键因素。自动语音识别算法和相机等技术的性能正在迅速提高,用户对设备购买者的体验期望也在不断提高。避免麦克风成为改进的瓶颈非常重要。
幸运的是,市场已经推出高性能的麦克风。过去几年,噪音表现已得到显著改善。SNR 正在超过 70 dB 的水平,并且随着 AOP 达到 130 dBSPL 标记,导致质量下降的失真将成为过去。这种级别的麦克风性能可帮助设备为最苛刻的客户提供令人满意的用户体验。
缩略语表
SNR:信噪比
EIN:等效输入噪音
THD:总谐波失真
AOP:声学过载点
ASR:自动语音识别
SPL: 声压级
dB:分贝 dB(A):分贝,A 加权
dBV:相对于 1 伏特的分贝
dBSPL:分贝,声压级
Pa:帕斯卡,压力单位
CE: 消费类电子产品