亚马逊 (Amazon) Alexa 的风行,显示"语音"已成物联网 (IoT) 重要人机接口 (HMI);然而用语音发号施令的先决条件是:语音设备须有良好的模拟接收前端 (AFE) 以及处理能力,才能提高辨识率,而"鸡尾酒会效应"(Cocktail Party Effect) 一直是声控专业埋首研究的重点,希望仿效人类听力具有选择性的原理,突破语音识别盲点——尽管背景一片喧嚣,还是能听到想听的内容。擅长模拟/数字混合 IC 及客制化系统单芯片 (SoC) 的美高森美 (Microsemi),利用 FPGA 可现场编程、升级特性所开发的"Timberwolf"音频处理器,就是一个关键组件。
Timberwolf音频处理器,智能辨识主声源方位,收音更清晰
Timberwolf 具备可运行三组"同步声学回声消除器"(AEC) 的特殊硬件加速器,能"摒除杂念"、采样干净声源——即使相距 4、5 公尺之遥,也能去除周遭电视、冰箱及冷气机等家电噪音、或闲杂人畜的嘈杂声,将主声源确实收录进去。Microsemi 语音事业部营销暨应用总监 Shahin Sadeghi 介绍,基于"Timberwolf"音频处理器所开发的模块,可应用在各式 IoT 设备,例如:结合视频建置门禁系统。此外,用户可通过内建 Timberwolf 的语音器件声控家电、照明,或与手机结合进行远距对话,为一心多用、分身乏术的使用者"解放双手"。
照片人物:Microsemi 语音事业部营销暨应用总监 Shahin Sadeghi
Sadeghi 认为,在本地场域运用声控的机会远比对外连接到云端多;"我们的使命是专注于声音撷取,确保语音从模拟前端到节点设备的通信质量,顺利将指令后送到区域内网或云端,但不涉及联外指令编码的工作",他详述 Microsemi 在 IoT 语音应用的居间作用。特别一提的是,为辨识声源方向,通常须采用多个麦克风阵列实现;例如,Amazon Echo 内嵌 6+1 麦克风阵列,可提示不同声源的唤醒方向,但第一代 Google Home 只有两个麦克风,仅能显示是否正在侦听、却无法获悉方向。然而,Timberwolf 只需单一麦克风就能搞定"指向性"问题。
Timberwolf 配备压缩器/限幅器/扩展器 (CLE) 之麦克风拾音算法,以及波束成形 (Beamforming)、全双工双向音频、定态/非定态噪声抑制技术,可提升语音控制/辨识的有效距离,并为 IoT 产品营造更多附加价值。智能家电只需建置一组麦克风,辅以算法便可侦测、辨识玻璃碎裂或火警等特殊音频,变身居家保全;一旦有异状,可传送警示到终端使用者的手机。为避免误动作,系统会在异常音频出现三次后才警示。"现阶段,烟雾与门窗侵入警示是标配选项,亦可对门铃声、婴儿啼哭、动物吠叫等在算法做客制化反馈",Sadeghi 补充。
图1:Timberwolf ZL38063 最多可支持六个麦克风阵列
资料来源:Microsemi 官网
难能可贵!与 Alexa 对答如流,吸引通信服务运营商目光
为降低组件的兼容性风险、让用户在设计及采购上有更多元的选择,Microsemi 已与多家模拟/数字麦克风的制造商完成产品匹配验证;Timberwolf 音频处理器有多种封装版本,亦能应用到汽车、工业等自动化场域,但声音数据库会相对复杂。经过亲身体验,Sadeghi 在日前 COMPUTEX 2017 与 Alexa 互动,的确要比同场其他参展设备要敏捷许多;即使正在播放音乐或有电视等其他声源干扰,依然可对答如流、或遵从指示声控音频设备的音量,完全颠覆有些实机演示给人沉默半晌、呆若木鸡,甚至不搭理人的负面观感!
Microsemi 另针对 AVS 推出名为"AcuEdge"的开发工具包,零售价格为 299 美元,已通过 Amazon Alexa 语音服务 (Alexa Voice Service, AVS) 兼容性认证,且与树莓派 (Raspberry Pi, RPi) 相容。它可扩展支持两组麦克风的双向语音通信,实现 180° 和 360° 拾音,优化免持通话质量、增强在恶劣音频环境识别 Alexa 唤醒字的能力;另一方面,"打断"功能允许用户在播放音频时中断 Alexa 设备。AcuEdge ZLK38AVS 开发工具包搭载 Microsemi ZL38063 Timberwolf 音频处理器,让开发者能便捷创建高质量语音识别接口的电路原型,并进行相关演示。
图2:ZL38063 Timberwolf 音频处理器区块图
资料来源:Microsemi 官网
Timberwolf 提供 SPI、I2S 和分时多任务 (TDM) 等多种连接接口;在树莓派运作 AVS 客户端和触发 Alexa 唤醒词监测的同时,Timberwolf 也在执行各种音频处理功能。ZL38063 专为电视机、机顶盒和智能音箱等悬挂式/桌上型衍生产品而设计,预载双向语音通信和"自动语音识别"(Automatic Speech Recognition, ASR) 辅助算法两项固件,可针对特定工作模式运作不同固件,在正常运行期间动态切换工作模式。Sadeghi 透露,COMPUTEX 展出期间已有多家通信服务运营商因有外包硬设备需求,主动参访 Timberwolf 语音处理方案并表达高度兴趣。
借助 MiTuner ZLS38508 或 ZLS38508LITE GUI 软件包,可在可视化画面上设定路由配置、直观使用下拉式选单调整参数,并在发送 (Tx) 和接收 (Rx) 音频信道做功能编程及设置模拟/数字增益。另额外选配 ZLE38470BADA 自动调试套件,提供自动调试和简易手动微调功能。