降低道路和车内噪音 (包括人际对话、信息娱乐应用程序音源和空调通风口等背景噪声),接收语音命令的麦克风位置、数字信号处理技术和滤波器至关重要。就系统层级来看,从接收端到音频编/译码器、软件算法、数字信号处理器 (DSP)、音频放大器和扬声器 (喇叭) 的每个环节,都将影响语音互动的结果。受惠于超灵敏的声波传感器和可解释语音的复杂机器学习算法,语音识别技术的准确性越发精进。由上述可知,负责接收音频的麦克风装置是第一道关卡,它是将声波转为电信号的"换能器"(Transducer)。
对音质、音场的要求越来越高,音频信号链中所参与的电子组件也变多;为实现轻薄短小的紧凑设计,微机电 (MEMS) 技术应用渐广。Market Reports World 平台刊载一份研究预估,2024 年全球 MEMS 麦克风市值将达 6.683 亿美元,2020~2024 年期间年复合成长率 (CAGR) 为 8%;单是 2021 年就较去年同期增长 7.01%,主要供货商有:瑞声科技 (AAC)、思睿逻辑 (Cirrus Logic)、歌尔 (Goertek)、英飞凌 (Infineon)、楼氏电子 (Knowles)、奥姆龙 (OMRON)、罗伯特博世 (Robert Bosch)、意法半导体 (ST) 和东电化 (TDK)—应美盛 (InvenSense)。
模拟 vs. 数字 MEMS 麦克风,齐攻"主动降噪"
坊间 MEMS 麦克风组件可分为模拟、数字两类,最大区别是:模拟麦克风结构相对单纯、尺寸较小,适用于空间有限的小型手持装置;数字麦克风则是将模拟数字转换功能从编译码器移至麦克风,打造从麦克风至处理器的"全数字音频信道"以降低噪声,有利于应对信号干扰较大的电路设计,但整个器件尺寸自然也较大。若麦克风收音仅用于静默监听、无需播放,音频链后端不必有编译码器或音频转换器,那么,数字 MEMS 麦克风显然是首选;反之,牵涉到音频播放或语音交互,模拟 MEMS 则当仁不让。
就整个 MEMS 麦克风出货市况来看,市调顾问公司 Omdia 在去年底发布的报告指出,英飞凌已跃居 MEMS 麦克风芯片市场龙头,囊括 43.5% 市占率,且领先第二名将近 4%、更远超第三名 37% 以上。日前,英飞凌再推出新一代模拟式 MEMS 麦克风──XENSIV IM73A135,让设计人员再也不必在高信噪比 (SNR)、精巧封装、高声学过载点 (AOP)、低功耗,或 MEMS 与驻极体电容式麦克风 (ECM) 麦克风之间做取舍。IM73A135 可达到 ECM 独有高水平的音频效能,兼具 MEMS 技术固有优势,可增强耳机主动降噪 (ANC) 功能。
图1:IM73A135 麦克风具备 73 dB 的 SNR 和较高的 AOP (135 dB SPL),功耗仅有 170μA
资料来源:英飞凌提供
IM73A135 麦克风具备 73 dB 的 SNR 和较高的 AOP (135 dB SPL),拥有高动态范围和紧密的频率曲线匹配,可实现最有效的音频信号处理并达到业界最低的 170μA 功耗,且体积小巧。此外,其低自有噪声,特别适用于会议系统、摄影机或录音机所需的高质量音频撷取。XENSIV MEMS IM73A135 将于 2021 年 3 月进入经销市场,适用穿戴装置的全新 MEMS 麦克风技术将由"Infineon-inside"合作伙伴随后推出。事实上,模拟式 MEMS 麦克风输出阻抗相对较低,搭配数字式 MEMS 麦克风输出,更适合电气噪声充斥的环境。
在模拟 ANC 扬声器驱动芯片稳定出货逾十年的艾迈斯半导体 (ams),虽已将 MEMS 麦克风专用芯片 (ASIC) 业务售予楼氏,仍致力耕耘数字 ANC 技术——其 AS3460"数字音频放大器"协助全球首款双芯片降噪爆款耳机"Padmate PaMu Quiet"协调管理 ANC 和声音通透性,可放大语音、自动无缝执行预设交叉淡入、淡出,实现 40dB ANC 噪音消除和音频播放 (未来上看 50dB+),与蓝牙 (Bluetooth) 搭配使用无须牺牲音频或降噪效能。ams 强化听觉引擎平台可为入耳式/半入耳式耳机导入自适应泄漏补偿 (ALC)、自动预设选择 (APS) 等功能。
TDK InvenSense 在今年 CES (国际消费电子展) 推出一款 PDM (脉冲密度调变) 数字 MEMS麦克风 T5838,是其 SmartSound 产品系列最新技术突破,具有 68dB SNR、133dB AOP,号称业界功率最低——130µA 低功耗模式,330µA 高质量模式,新功能"声学活动检测"(AAD) 支持 20µA 的可配置的声音唤醒功能,以因应常时启动 (Always-On) 所需。TDK 表示,声学活动检测是一项新的超低功耗边缘处理功能,以监视声学环境并在检测到活动时唤醒系统单芯片 (SoC) 或应用处理器 (AP);T5838 还提供用户可编程性,为不同应用优化性能。
后起之秀:"压电式"MEMS,耐用、启动快且可自供电
整体而言,MEMS 麦克风由于较传统 ECM 拥有更好的音质、灵敏度和定向性,便于从数据获取上、下文进行有效处理和渲染,且功耗、成本更低,体积也小巧得多。ECM 预先存在表面电荷,电容器可保持永久电压以减少所需功率;然而当收音设备越来越精巧,SNR 和稳定性却随之下降,温差大时尤其严重。于是,可在麦克风内部将模拟转换为数字信号、较不受噪声影响、设计自由度高且易于制造的数字 MEMS 麦克风日受欢迎。不过,为进一步增强抵抗粉尘/微粒、雨水/汗水、震动及高分贝噪音能力,"压电式"(Piezoelectric) 麦克风成后起之秀。
"压电式"MEMS 麦克风采用单层薄膜设计的压电器件不会在背板间隙夹杂灰尘、空气或雨水等污染物,影响灵敏度和频率响应,亦避免膜片黏附于背板上。简言之,它具备防水、防尘、超高声学过载点、消除回声特性,耐用、启动快且可自供电,对于细微声响的收音效果更好,更适用于背景噪音大的空间、长距离、户外或低频对话,应用面广泛,但薄膜器件制造不易是其缺点。可喜的是,美国 Vesper Technologies 借助石墨烯制程已有所突破,且已获亚马逊 (Amazon) Alexa 认可。
图2:电容式 MEMS 麦克风易受粉尘/微粒 (右上)、水份 (左下) 污染,或使膜片黏附于背板 (右下)
2018 年,Vesper 宣布与 Unisem 合作开发压电 MEMS 麦克风,次年即推出专为物联网 (IoT) 设备设计的 VM3000 数字麦克风。Vesper 一语道破压电和电容 MEMS 麦克风结构的主要区别在于:压电 MEMS 不需背板、不存在背板和气隙,将为 MEMS 压电式麦克风提供可靠性和强固性。再者,压电式的抑制超声波频率能力亦较优:MEMS 电容式麦克风的信号是与移动的振动膜和固定背板之间的间隙变化成比例,但压电式信号是在移动的振动膜中生成,利用压电效应将声波能量直接转为电信号,SNR 出色且可稳定匹配,非常适合大型数组应用。
Vesper 先驰得点,VM3011 将"音场背景"纳入考虑
反观在电容式 MEMS 麦克风,振动膜片的刚度变化会显著牵制麦克风的 SNR,无法实现更高的 AOP;但压电式传感器在高声压级之前是高度线性 (极限声压约 170 dB SPL),故这些麦克风上的 AOP 仅受 ASIC 电压轨的限制。这种线性为压电 MEMS 麦克风提供较高的抗静电能力。当声压进入压电麦克风的声音端口,会使悬臂压电振动板偏转及弯曲,振动膜会产生应力并根据电路的电边界条件产生电场或电位移 (电场大小取决于声压和耦合系数所产生的应力),将直接经由压电效应 (Piezoelectricity) 在 MEMS 换能器的输出端产生电压。
然后,由封装内的 ASIC 电路放大。压电材料乃响应机械应力而产生电荷,不需电荷泵即可产生偏置电压,所以可以超低电流启动并快速唤醒 (启动速度仅约 200 微秒),不会遗漏关键词;但电容式则需要时间才能将 MEMS 充电至高偏置电压,启动时间>250 倍!Vesper 自有 ZeroPower Listening (ZPL) 收听技术便使用压电效应让换能器充当开关。ZPL 的工作原理是:当声波撞击压电悬臂时将移动悬臂、产生电压,由非常低功耗的比较器电路感测到后,该电路将唤醒信号发送到系统的其余部分。
图3:VM3011 支持不同 PDM 频率速度的多种操作模式,若用于声音活动检测的 ZPL 模式需关闭频率,可使用 I2C 数据交换动态更改 ZPL 触发器的阈值
Vesper 强调,虽然任何声音都会在压电 MEMS 悬臂上产生电压,但并非所有声音都会启动伴随电路,该电路设计仅会响应 250Hz~6kHz (包括人声) 声音,风声或空调声等超出范围者并不会让麦克风误动作;要启动麦克风,声音还须超过 65~89 dB 的指定声压级 (SPL),可经由外部电阻值设置。Vesper 于去年中推出世界首个具有自适应 ZPL 技术+IP57 防护等级的智能数字 MEMS 麦克风——VM3011,会根据环境的背景水平自动调整声学阈值,在同一封装集成 ASIC 和压电 MEMS 换能器,数字 PDM 接口可用于传输音频数据。
压电式微机械超声换能器,潜力大
藉由 PDM 频率速度更改设备模式,I2C 接口则允许"实时"配置自适应 ZPL。当与压电麦克风的超快速启动结合使用时,系统可忽略背景噪音,仅在响应关键词或需要声学触发才唤醒,90% 时间皆处于休眠状态,可延长十倍电池寿命;搭配 DSP 还可运行 Sensory Truly Handfree 算法做关键词检查。ST 亦加快压电 MEMS 研发脚步,于去年底宣布与新加坡研究机构 A * STAR 的 IME 和日本制造工具供货商 ULVAC 合作,共同在 ST 的现有制造工厂内共同建立一条专注于 Piezo MEMS 技术的 8 吋 (200mm) 研发线——"Lab-in-Fab"。
此举意在促进创新并加速新材料、制程技术及最终产品开发,加速压电 MEMS 致动器新应用,包括:智能眼镜、增強现实 (AR) 拟真音场耳机、光达 (LiDAR) 系统的 MEMS 反射镜、新兴医疗应用的压电式微机械超声换能器 (PMUT),以及商用/医用压电头和工业 3D 打印。新厂拟于今年第二季投产、于 2022 年底量产。终端应用亦有新创意,德国设计工作室 WertelOberfell 去年底推出可由太阳能自行采集能量的自行车头盔 ESUB Tracks,集成印制压电骨传导扬声器,热压到帽带压纹内层的皮带上、再贴近骑士耳朵,以产生接近的声音。
图4:印刷的压电麦克风能理解基本的语音命令并控制转向信号灯
扬声器与智慧手机的蓝牙连接,以提供清晰音频。在用户的下巴下方,则有印刷压电麦克风可理解语音命令;若骑士必须转弯,麦克风可记录转弯信号等语音命令并在帽沿以闪灯表示,无需手部动作示意。要将实时语音生成文本有两大步骤:一是传感器必须将传入的声波转换为电信号,二是使用软件确定单词——将电信号从模拟转换为数字后,由快速傅立叶变换 (Fourier transform) 分析,以找出随时间变化的频率幅度;一旦声音变化很大,必须通过机器学习提高时间准确性。有鉴于此,韩国学术单位仿效人类耳膜构造、用压电式声波传感器收音。
唤醒词太枯燥?订做一个喜欢的吧!
沿着位于振膜上的各定点分析多个信号,较仅就一个信号做时间、频谱转换分析更准确 (实验准确率达 97.5%),且号称可收到的信息量是传统电容式传感器的两倍。解决了收音问题,要开启语音互动前,如果厌倦了单调的唤醒词,现在也可"订做一个它"。交互式语音技术新创公司 Picovoice 将公开共享他们的平台,并免费为公司许可Alexa、Siri 和 Google Assistant 的唤醒词模型。设备制造商既可提供自己的基于 Picovoice 平台的语音助理、亦可与最受欢迎的语音助理连接,不必付费使他们的设备了解唤醒词。
Picovoice 提供一个建构自定义唤醒词的平台,乐金 (LG) 和惠而浦 (Whirlpool) 等公司已将其整合到其产品中,以替代 Amazon 或 Google 的服务。语音引擎可针对非常特殊的用例生成定制的助理,并带有诸如洗衣服或打开微波炉等活动的命令。基于开放和可互操作愿景,Picovoice 可确保语音助理都在设备上运行,而无需将任何数据发送到云端;此种基于边缘的方式意味着制造商不必依靠远程服务器添加语音交互,也不必担心发送到云端的数据受到破坏,所有数据都保留在本地和私有位置。
图5:Picovoice 平台两大功能:Porcupine 和 Rhino。前者负责倾听并用于检测热门单词;后者是语音到意图引擎,可对语音数据执行自然语言理解 (NLU) 并推断意图,无需中间语音到文本
Picovoice 软件几乎可在微控制器 (MCU) 到 Web 浏览器的任何平台运行,通过设备上的语音识别和自然语言理解 (NLU) 为边缘语音 AI 提供支持,包括行动平台、桌面操作系统 (Linux/Mac/Windows),以及 Raspberry Pi、BeagleBone 等嵌入式平台。他们断言,"针对目的和品牌的语音助理,是语音作为接口发展的下一个逻辑步骤",但这并不妨碍公司在设备上提供 Alexa 或 Google 助手,它只是不必自动执行。免费获得唤醒词模型许可让设备制造商有更多选择,例如,可为电梯和对讲机等操作设备提供零接触操作。