当前位置： CompoTech China > 专题 > 专题报道 >

Microsemi：提高辨识率与有效距离，音频触发用途广

本文作者：任苙萍点击： 2017-07-17 12:22

前言：

效应3：音频处理器为声控做第一线把关

亚马逊 (Amazon) Alexa 的风行，显示＂语音＂已成物联网 (IoT) 重要人机接口 (HMI)；然而用语音发号施令的先决条件是：语音设备须有良好的模拟接收前端 (AFE) 以及处理能力，才能提高辨识率，而＂鸡尾酒会效应＂(Cocktail Party Effect) 一直是声控专业埋首研究的重点，希望仿效人类听力具有选择性的原理，突破语音识别盲点——尽管背景一片喧嚣，还是能听到想听的内容。擅长模拟／数字混合 IC 及客制化系统单芯片 (SoC) 的美高森美 (Microsemi)，利用 FPGA 可现场编程、升级特性所开发的＂Timberwolf＂音频处理器，就是一个关键组件。

Timberwolf音频处理器，智能辨识主声源方位，收音更清晰
Timberwolf 具备可运行三组＂同步声学回声消除器＂(AEC) 的特殊硬件加速器，能＂摒除杂念＂、采样干净声源——即使相距 4、5 公尺之遥，也能去除周遭电视、冰箱及冷气机等家电噪音、或闲杂人畜的嘈杂声，将主声源确实收录进去。Microsemi 语音事业部营销暨应用总监 Shahin Sadeghi 介绍，基于＂Timberwolf＂音频处理器所开发的模块，可应用在各式 IoT 设备，例如：结合视频建置门禁系统。此外，用户可通过内建 Timberwolf 的语音器件声控家电、照明，或与手机结合进行远距对话，为一心多用、分身乏术的使用者＂解放双手＂。

照片人物：Microsemi 语音事业部营销暨应用总监 Shahin Sadeghi

Sadeghi 认为，在本地场域运用声控的机会远比对外连接到云端多；＂我们的使命是专注于声音撷取，确保语音从模拟前端到节点设备的通信质量，顺利将指令后送到区域内网或云端，但不涉及联外指令编码的工作＂，他详述 Microsemi 在 IoT 语音应用的居间作用。特别一提的是，为辨识声源方向，通常须采用多个麦克风阵列实现；例如，Amazon Echo 内嵌 6+1 麦克风阵列，可提示不同声源的唤醒方向，但第一代 Google Home 只有两个麦克风，仅能显示是否正在侦听、却无法获悉方向。然而，Timberwolf 只需单一麦克风就能搞定＂指向性＂问题。

Timberwolf 配备压缩器／限幅器／扩展器 (CLE) 之麦克风拾音算法，以及波束成形 (Beamforming)、全双工双向音频、定态／非定态噪声抑制技术，可提升语音控制／辨识的有效距离，并为 IoT 产品营造更多附加价值。智能家电只需建置一组麦克风，辅以算法便可侦测、辨识玻璃碎裂或火警等特殊音频，变身居家保全；一旦有异状，可传送警示到终端使用者的手机。为避免误动作，系统会在异常音频出现三次后才警示。＂现阶段，烟雾与门窗侵入警示是标配选项，亦可对门铃声、婴儿啼哭、动物吠叫等在算法做客制化反馈＂，Sadeghi 补充。

图1：Timberwolf ZL38063 最多可支持六个麦克风阵列
资料来源：Microsemi 官网

难能可贵！与 Alexa 对答如流，吸引通信服务运营商目光
为降低组件的兼容性风险、让用户在设计及采购上有更多元的选择，Microsemi 已与多家模拟／数字麦克风的制造商完成产品匹配验证；Timberwolf 音频处理器有多种封装版本，亦能应用到汽车、工业等自动化场域，但声音数据库会相对复杂。经过亲身体验，Sadeghi 在日前 COMPUTEX 2017 与 Alexa 互动，的确要比同场其他参展设备要敏捷许多；即使正在播放音乐或有电视等其他声源干扰，依然可对答如流、或遵从指示声控音频设备的音量，完全颠覆有些实机演示给人沉默半晌、呆若木鸡，甚至不搭理人的负面观感！

Microsemi 另针对 AVS 推出名为＂AcuEdge＂的开发工具包，零售价格为 299 美元，已通过 Amazon Alexa 语音服务 (Alexa Voice Service, AVS) 兼容性认证，且与树莓派 (Raspberry Pi, RPi) 相容。它可扩展支持两组麦克风的双向语音通信，实现 180° 和 360° 拾音，优化免持通话质量、增强在恶劣音频环境识别 Alexa 唤醒字的能力；另一方面，＂打断＂功能允许用户在播放音频时中断 Alexa 设备。AcuEdge ZLK38AVS 开发工具包搭载 Microsemi ZL38063 Timberwolf 音频处理器，让开发者能便捷创建高质量语音识别接口的电路原型，并进行相关演示。

图2：ZL38063 Timberwolf 音频处理器区块图
资料来源：Microsemi 官网

Timberwolf 提供 SPI、I2S 和分时多任务 (TDM) 等多种连接接口；在树莓派运作 AVS 客户端和触发 Alexa 唤醒词监测的同时，Timberwolf 也在执行各种音频处理功能。ZL38063 专为电视机、机顶盒和智能音箱等悬挂式／桌上型衍生产品而设计，预载双向语音通信和＂自动语音识别＂(Automatic Speech Recognition, ASR) 辅助算法两项固件，可针对特定工作模式运作不同固件，在正常运行期间动态切换工作模式。Sadeghi 透露，COMPUTEX 展出期间已有多家通信服务运营商因有外包硬设备需求，主动参访 Timberwolf 语音处理方案并表达高度兴趣。

借助 MiTuner ZLS38508 或 ZLS38508LITE GUI 软件包，可在可视化画面上设定路由配置、直观使用下拉式选单调整参数，并在发送 (Tx) 和接收 (Rx) 音频信道做功能编程及设置模拟／数字增益。另额外选配 ZLE38470BADA 自动调试套件，提供自动调试和简易手动微调功能。

本月热点 HOME

栏目热点 HOME