当前位置: CompoTech China > 专题 > 专题报道 >
 

AI 加速器到专用处理器,语音应用更直观

本文作者:任苙萍       点击: 2021-02-22 11:01
前言:
语音识别正在成为消费者语音助理的重要元素。亚马逊 (Amazon) 在 2017 年为 Alexa 用户创建语音配置文件,此后一直在增强该功能;去年夏天,语音助理开始深入用户联系信息来个性化与 Alexa 的交互。与此同时,Google 也彻底修改 Google Assistant 的语音匹配功能的设置程序,增加步骤以提高安全性,并在个性化响应时使语音助理更加灵活。去年 9 月,亚马逊再推"可教学 AI"(Teachable AI) 功能,若遇到 Alexa 不理解的语音命令,用户可直接通过语音向 Alexa 下达指示、实时传达定义,无需手动设置偏好或改写 Alexa 逻辑规则。
 
图1:Alexa 能与用户实时交互式教学,将这些概念推广到新的上、下文中,并将其与用户帐户连结

语音助理变聪明、且更个性化!
第一阶段将专门用于照明和恒温器等智能设备,但最终将包括其他类型的命令,其工作原理类似为 Alexa Routines 设置关键词,而非死记硬背的触发器。Alexa 首席科学家 Rohit Prasad 对此做了演示:"Rohit 的阅读模式",一开始盲然不解的 Alexa 会主动询问,在得知定义后将灯光亮度降低至 40%。借助交互式教学,Alexa 会立即学习这些定义和相关操作,并仅将它们储存供特定用户使用。对话管理 (dialogue management) 模型会检查用户的问题及答案是否在已知范围内,例如,Alexa 会询问用户口中的"学习模式"是什么意思?

若用户回答:设置为良好的阅读亮度水平。模型因无法理解、在每次尝试定义失败后,对话管理器会降低后续问题的复杂性。若概念提取模型在几经询问后仍无法获知"学习模式"定义,对话管理器可能会直接追问:能为我提供亮度或颜色数值吗?最后,"陈述推论"(declarative-reasoning) 模型会预测与用户陈述话语对应的动作,还可在决定储存所选动作以备将来重用之前,就其上、下文验证所选动作的语义是否适当;成功后,先前学习的概念可沿用至相关文本,例如,客厅"学习模式"意味将灯光设置为 50% 亮度时,办公室也将采用相同概念。
 
图2:交互式教学可让 Alexa 学习"间接表述"
资料来源:

MCU 供货商群起支援 Amazon Voice Service
Alexa 甚至可被授予人类如何将语句语句视为变相命令,例如,告诉 Alexa 房间太暗了,它会询问用户是否要打开灯或窗帘、然后依定义动作。除了自动涵盖所教概念外,可教学 AI 还允许用户明确指示 Alexa 忘记最近或所有学到的概念。随着 Alexa 语音服务 (Amazon Voice Service, AVS) 越来越强大,不少微控制器 (MCU) 供货商群起响应。意法半导体 (ST) STM32 系列 MCU 皆已整合 Alexa 语音用户接口软件,日前再推亚马逊认证的智能连网设备参考设计套件,开发者可利用 AWS IoT Core 平台 AVS 功能,在简易 MCU 研发内建 Alexa 之产品。
 
图3:集成 PIC32MZ-W1 Wi-Fi SoC 及可选预配置 Trust&GO 安全组件的 WFI32E01 Wi-Fi MCU 模块,可与 Amazon Alexa 连接做语音控制
资料来源:Microchip提供

STM32 MCU 用户可自定义和扩充系统设计、增加强化功能,例如:第二个唤醒关键词、附加的本地化命令、声控图形显示。为进一步简化原型设计和产品研发,参考设计硬件包括一个作为独立模块的音频子板,内含一个 ST FDA903D 音频编解码器、用户 LED 和按钮,以及两个间隔 36mm 的 MP23DB01HP MEMS麦克风,适用于尺寸受限的产品,包括小至电源开关插头。若需专用麦克风间距、声学特性和用户接口定义,模块化硬件还允许用户自定义子板。即使环境吵杂,麦克风间隔小,音频前端仍能提供出色的远场语音侦测功能。
 
图4:ST 推出亚马逊认证的参考设计,简化 Alexa 内建智能家庭设备开发
资料来源:ST提供

微芯科技 (Microchip) 推出首款为云台身份验证预先配置和设置的 Trust&Go Wi-Fi 32 位 MCU 模块——WFI32E01PC,符合 Wi-Fi 联盟 (WFA) 规范,并获得美国联邦通信委员会 (FCC)、加拿大工业部 (IC) 和欧洲无线电设备指令 (RED) 三大世界级监管机构的全面认证,同时与 PIC32MZW1 Curiosity 开发板兼容 (已通过 AWS IoT Core 平台认证并被列入 AWS 合作伙伴设备目录),可使用 AVS 与板载传感器互动。AWS IoT Core 认证平台包括程序代码范例、WLAN 软件以及可在 MPLAB Harmony v3 找到的网络协议堆栈。

电池供电的边缘设备,也能制订复杂决策
显然,语音助理越来越聪明,所肩负的任务越见繁复;于是,开启了 AI 加速器、乃至专用处理器的采用风潮。美信 (Maxim) 去年底推出带有神经网络加速器的 MAX78000 低功耗 MCU,支持电池供电的嵌入式物联网 (IoT) 设备在边缘通过快速、低功耗 AI 推论来制订复杂决策;相较于软件方案,采用 AI 技术的电池供电系统可大幅延长运行时间,且其成本仅是 FPGA 或 GPU 方案的零头。MAX78000 核心是专用硬件,旨在最大程度降低卷积神经网络 (CNN) 的能耗和延迟,且运行时几乎不需任何 MCU 介入,意味着操作的流畅度极高。

Maxim 表示,该硬件能量和时间仅用于实施 CNN 的数学计算,执行推论功耗不到 MCU 软件运行功耗的 1%;若需将外部世界的采集数据高效输入到 CNN 引擎,可整合 ARM Cortex-M4 或功耗更低的 RISC-V 内核。Syntiant 推出第二代 NDP120 神经决策处理器 (NDP),亦强调电池供电设备的音频和传感器应用;内嵌 Syntiant Core 2 灵活的低功耗深度神经网络推论引擎,以不到 1mW 的功耗同时运行多个应用程序,包括:回声消除、波束成形、噪声抑制、语音增强、发言者辨识、关键词识别、多个唤醒词、事件检测和本地命令识别。
 
图5:Maxim 神经网络加速器,在电池供电设备中实现复杂的嵌入式决策
资料来源:Maxim提供

NDP120 具有高度可配置的音频前端,适用于远距离语音滤波和回声消除,并支持红外检测、多轴加速度、倾斜、磁场和压力等多模式传感器融合;Syntiant Core 2 是张量处理核心,每一层独立控制参数、输入和输出张量,不影响编程简便性。NDP120 的可编程数字信号处理器 (DSP) 与高精度推论引擎结合,非常适合创建可在传统算法和机器学习 (ML) 之间运行的高性能语音命令应用程序。耐能智慧 (Kneron) AI SoC——KL720 NPU 版本,则强调能识别"整个词典中的单词",不限特定唤醒单词;另可重新配置的设计,KL720 NPU 可同时处理图像和音频。

加速器之后,专用芯片崛起
此外,亚马逊第四代球形设计 Echo 与第三代 Echo Show 10 皆采用 AZ1 Neural Edge 处理器,专供边缘设备的机器学习之用,可提供更自然的语音互动体验并缩短数百毫秒的响应时间。AZ1 Neural Edge 处理器是联发科技 (MediaTek) 专为"高端音频处理和语音助理应用"之 MT8512 处理器的要员,可用于了解声音方向来源,并决定何处、何时、何种速度调整摄影机;集成 2GHz 双核 CPU,支持各种音频处理外设及蓝牙 5.0/Wi-Fi 5 双频连接;配合高性能语音 DSP 使用,可快速、准确地检测语音命令中的唤醒词和关键词,提升 Alexa 灵敏度。

当前的功能包括使用回馈搜索算法来获取用户回馈并使用交互来纠正操作中的错误,并通过语音直接教导 Alexa,不必借道应用程序 (APP) 或网页设置。顺带一提,带显示器的 Echo Show 10 使用具有计算机视觉 (CV) 的声源定位 (SSL) 来识别视野中的物体和人,并辨识声音发自何人?新一代 Echo Show 10 显示器和摄影机可改变方向并对准空间中的扬声器,在视频通话实现更自然的交互,可一面走动、一面聊天或观看视频 (须事先储存个人脸部和声音特征)。与此同时,云台服务供货商 (CSP) 正往专用处理器芯片靠拢,以提升 AI 训练、推论效能。
 
图6:联发科技 MT8512 专为高阶音频处理和语音助手应用而设计,内部集成亚马逊 AZ1 Neural Edge 处理器,可在边缘设备运行强大的推论引擎

亚马逊已宣布未来将采用旗下 AWS Inferentia 处理器承担 Alexa 大部分云台处理,以加速文本到语音翻译的大量机器学习。虽然市占较小,但 Google Assistant 在理解自然语言和命令似更胜一筹,且 Google Nest Hub 智能显示可控制和可视化管理整个智能家居,并识别家中所有成员、提供个性化信息,其专用 TPU 贡献不小。三星亦采用 Google Cloud 第三代 TPU 训练自家 Bixby 语音助理 (在全球逾 1.6 亿台设备上运行),使用自动语音识别引擎将用户语音命令转换为文本,以减少 AI 训练时间、缩小模型、降低单字错误率并提高运行速度。

"以用户为中心",语音识别加速客服流程
根据 2020 年 eMarketer 的一项研究,美国有 38.5% 的人口使用语音助理连接智能手机或其他小工具,且去年因为居家时间增多,成长率达两位数。此一趋势促使主要电商门户网站开发聊天机器人或使用现有基于语音的集成来增加销售;肺炎疫情爆发以来,制订对话商务策略以弥补人际交流,已成商业新手段。亚马逊宣布将语音识别技术集成到"虚拟联络中心"(客服中心) 平台,旗下 AWS 将使用 AI 来分析员工或客户的声音并悄悄确认其身份,作为与客户交流的工具,并收集和分析有关这些对话的数据。

通常,企业依靠询问生日、社会安全/身份证号码或地址之类的辨识性问题来确认来电者身份;而上述语音 ID 目的是跳过通常很繁琐的过程,并使得窃取呼叫中的身份更加困难。一旦用户同意使用语音 ID,该软件会使用几秒钟的通话来分解其语音生物特征,以及音调、节奏之类的卷标元素,然后予以储存并标记为个人的语音文件以备将来参考。当下次同一人来电并自报姓名,语音 ID 可提取声纹并将其与当前语音做比对。若匹配无疑,会将呼叫转移给某一客服人员,不必再确认身份;反之,则将经由标准筛选系统检查。
 
图7:Amazon Connect 是易于使用的全通路云台联络中心,采用全通路设计,为顾客和客服人员提供跨语音和聊天的无缝体验

一款专用的 SaaS (软件即服务) 应用程序 Voice Compass Journeys,利用 NLX Conversational AI 平台让使用者无需与人交谈、就能经由网页、短信、电邮、手机、聊天软件等,用"语音"下达指令。好处是:不必等待接线或复杂选单,且用户可语音指导自定义控制呼叫速度,创建"以用户为中心"的自助服务选项,亦有助服务商将 IT 服务台自动化、创建"旅程样板库"以满足特定客户需求。利用免费与 Voice Compass 服务集成的软件开发工具包 (SDK),还可与网站、顾客关系管理 (CRM) 或第三方应用程序及 IoT 硬设备整合。

"交互式语音商务"新时代揭幕,风险随之而至
使用加密声波、可在任何设备脱机非接触支付的 ToneTag 公司,将音频导入支付网关、推出"语音商务";基于语音的支付解决方案利用声波生成音频 QR,作为交易媒介及支付信息,支持 Amazon Pay、UPI 和信用卡等主要付款工具,使客户能在脱机商务获得交互式、自定义和无缝体验。用户只需与他们的行动设备通话即可在咖啡馆和快餐店订购并预付帐款,到店后无需排队就能取货。这种"随时随地"的个性化脱机零售,俨然是"交互式语音商务"新时代标志。广告商与内容制作商也正尝试创建全新的交互式内容体验。

英国一家在线广告平台 AdTonos 拥有一项名为"YoursTruly"的技术,目的是利用"原生音频"广告体验的巨大且快速增长的潜力。奥迪 (Audi) 交互式音频广告首次在商业广播通过智能扬声器发布,以预订奥迪汽车的试驾车或寻找经销商。该广告在广告时段插入一个互动触发器,听众可以语音命令对奥迪广告做出反应,使语音助理参与并完成所需操作,再返回直播电台。英国广播公司 (BBC) 一个名为"检查室"的试点项目,是一个在亚马逊 Alexa 运行的交互式科幻故事讲述,让用户有效扮演其中一个角色,对某些受众 (尤其是儿童) 颇具吸引力。
 
图8:YoursTruly 开发目的是"利用原生音频广告体验的巨大且快速增长的潜力"

然而,如何针对自然语言搜索优化?如何创建针对答案引擎优化的内容?是两大挑战。AI 语音助理正在重塑消费者和企业与数字技术的交互方式;虽然,语音互动应用存在无限可能,也潜藏风险。一项甫在计算机协会嵌入式网络传感器系统会议 (SenSys 2020) 发表的研究揭露:即使没有麦克风,家中扫地机器人等智能家电也可能被黑客窃听家庭对话!通过远程访问光达 (LiDAR) 读数对 Roborock 进行远程窃听攻击。

光达可经由获取屋中垃圾桶等特定物体的反射来捕获声音信号,而这个反射物又会因为附近的声源 (例如人们对话) 而振动。黑客可能会重新利用真空吸尘器的光达传感器来感知环境中的声音信号,从云台远程采集光达数据并使用深度学习处理原始信号以提取音频信息。此一弱点恐会揭示电话会议的机密、信用卡信息,或由正在播放的电视节目推估用户偏好。魔鬼藏在细节里,语音互动是最直观的触媒,伴随而来的操作细腻度与资安风险防护却不可不慎!