当前位置: CompoTech China > 专题 > 专题报道 >
 

唤醒.识别.场景.理解.情境感知 DSP IP"扩展"不停歇

本文作者:任苙萍       点击: 2021-02-22 11:14
前言:
上传云台处理,功耗、延迟性、隐私权和网络连接是最大顾虑;所以,嵌入式/脱机"边缘语音识别"的成长性备受期待;为满足较低的功耗和计算资源需求,Tiny Machine Learning (TinyML) 编译便应运而生。现今不少微控制器 (MCU) 已具机器学习 (ML) 能力,且集成数字信号处理器 (DSP) 作为加速器以增强效能;更有另将音频编/译码器、基频处理器及无线射频 (RF) 整合其中者,可支持远程控制。选择支持移植和优化大量词汇的 MCU 可简化开发过程,而坊间多数音频 DSP IP 内核以安谋 (Arm)、Tensilica 和 CEVA 为三大主流派别。
 
图1:运行 TinyML 应用程序的通用多核微控制器 (MCU) 参考框架

Arm:Ethos-U55 呼叫唤醒,Ethos-U65 进阶语音识别
为加速人工智能 (AI) 应用,Arm Ethos-U65 扩展 Cortex-A 内核之 microNPU IP (效能是 Ethos-U55 两倍)。Arm 去年初推出的 Ethos-U55 旨在搭配 Cortex-M 内核 MCU,具有 3~256 个乘积累加计算 (MAC),可提供 0.5 TOPS 加速度;而 Ethos-U65 拥有更宽的内部系统总线,且经过客制化以应对与 DRAM 相关的额外缓冲和延迟 (Ethos-U55 & Cortex-M 系统通常对应 SRAM),在不增加功率为前提下,将可用的 MAC 翻倍 (最多达 512 个并行 MAC@1GHz),共 1 TOPS,已获恩智浦 (NXP) 首肯集成至下一代 i.MX 应用处理器 (AP) 供作语音识别。

恩智浦表示,支持 Ethos-U65 的产品将介于 i.MX 8M+ 与基于 Ethos-U55 NPU (神经处理单元) 的 MCU 之间,将用于处理多人脸识别、语音识别或姿势估计,不会与现有 i.MX 8M+ 产品线重迭。基于 Arm Ethos-U55 NPU 的 NXP MCU 可处理人身检测、唤醒字词检测和视频降噪,而既有 i.MX 8M+ AP 具有 NPU AI 加速器模块及二或四个 Cortex-A53 内核,内置 NPU IP 由芯原微电子 (Verisilicon) 设计。i.MX 8M+ AP 扩展了恩智浦 EdgeVerse 产品组合,是首个集成专用 NPU 的 i.MX 系列,可在工业和物联网 (IoT) 边缘进行高阶机器学习推论。
 
图2:基于 Arm Cortex-A 的应用处理器通常带有 DRAM,以提供更高的数据速率和容量,但等待时间亦长为代价;microNPU 设计就是为了适应这种延迟

 
结合 Cortex-A53 内核和 NPU,边缘设备可实现带有自然语言处理 (NLP) 情感检测及人与设备的无缝交互。i.MX 8M+ 还集成楷登电子 (Cadence) 旗下 Tensilica 公司的 HiFi 4 DSP,通过对"音频串流"做预处理和后处理,以增强 NLP 能力——Cortex-M7 用于运行实时响应系统 (唤醒单词检测),应用处理器则执行复杂的非实时应用程序以降低整体系统级功耗。恩智浦 i.MX RT600 亦采用 Tensilica HiFi 4 DSP (@600MHz),锁定边缘语音、音频和其他神经网络 (NN) 应用。特别一提,HiFi DSP 是用于音频和 AI 语音最广泛许可的 DSP。

Cadence:Tensilica HiFi DSP 优化 AI 语音识别&远场音频处理
Cadence 去年初再针对 TensorFlow 精简版 MCU 优化,目标是提供 ML 端到端开源平台,在超低功耗内核运行边缘 ML、省去人工编码 NN 工时——Tensilica HiFi DSP 是首个"支持 TensorFlow Lite for MCU"的 DSP,更有利于关键词/音频场景检测、降噪和语音识别等 ML 应用程序创新。HiFi DSP 已移植并优化 Retune DSP 的多麦克风波束成形、回声消除、到达方向指示技术并集成关键词语音触发,支持自适应近场和远场波束成形,可配置 2~9 个或更多麦克风,以改善信噪比 (SNR) 并提供卓越的语音控制性能。

如此,将可显著改善语音清晰度,适用于语音控制或通信,包括:手机、智能电视、耳机、数字助理、机器人技术和汽车等语音处理。先进的 DSP 算法需要更高的处理能力和能源效率,以消除噪声并隔离扬声器的声音、提高理解度。于 2018 年推出的 Tensilica HiFi 5 DSP,则是首个"针对 AI 语音识别和远场音频处理"优化的 DSP,经由改进浮点和定点 DSP 功能及对新数据类型的本机支持;其新型 32 位 MAC/周期神经网络引擎为运行复杂语音提供有效识别演算,将浮点性能提升两倍、基于 NN 语音识别算法效能提升四倍。
 
图3:Cadence Tensilica HiFi 5 DSP 架构

Tensilica HiFi 5 DSP 特别适用于数字家庭助理和汽车信息娱乐系统 (infotainment) 的语音控制用户接口,且可使用 Audio Weaver Designer 等图形配置工具快速构建音频功能。Ambiq Micro 是 HiFi 5 DSP 的第一家采用者,将 HiFi 5 DSP 移植到 Ambiq Micro 的次阈值功耗优化技术 (SPOT) 平台,开发者可在不影响音质或电池寿命下,充分发挥 DSP Concepts 和 Sensory 等音频软件优势和对话式用户接口。HiFi 5 DSP 与既有 HiFi DSP 产品线的代码兼容,且集成了专为小型、低功耗嵌入式系统而设计的可扩展 FreeRTOS 操作系统 (OS)。

结合具有 DSP 功能的 32 位 Xtensa 控制处理器和特定算法的灵活加速功能,进而实现更具可编程性的方法,有助于开发复杂的 IoT 实时软件,一个庞大的音频软件生态系俨然成形!将 NN 推论从云台移至边缘设备已是大势所趋,且针对 NN 优化的 DSP 将取代通用型产品,Cadence Tensilica DNA 100 神经网络加速器即是专用 AI IP。Cadence 还提供完整的软件堆栈和 NN 编译程序以充分发挥硬件优势,并支持脸书 (Facebook) 的跨硬件平台机器学习编译程序 Glow。

CEVA:不只语音识别!听觉场景、语意理解更到位
无线连接和智慧感测技术授权公司 CEVA,通过混合 DSP/MCU 架构与 Arm 分庭抗礼,有 BX1 和 BX2 两个版本:前者适用中、低阶 DSP,目标应用包括 NB-IoT 调制解调器、协议堆栈和传感器融合;后者用于 5G 物理层控制、多麦克风波束成形和基于 NN 的语音识别等密集型工作负载。CEVA 已将嵌入式语音处理技术供货商 Rubidium 的语音识别、文本语音转换、生物特征说话者识别和验证软件套件集成在 CEVA-TeakLite DSP 系列 (包括 TeakLite-4),以实现自动语音识别 (ASR)、生物测定说话者识别引擎 (BSI) 和多种语言的文字转语音 (TTS) 等功能。
 
图4:CEVA-TeakLite 4 架构

CEVA 并不满足于语音识别,还将"场景描述"纳入考虑,并锐意深入"语意理解"领域。结合 VisiSonics RealSpace 3D 音频软件与自有低功耗音频和传感器中枢 DSP+MotionEngine 头部跟踪算法,在其 BNO080 九轴系统级封装 (SiP) 组件上运行,为真无线耳机 (TWS)、耳罩式耳机和其他听戴式设备 (hearables) 创建 3D 空间音频。内建真实三维声学场景算法专利,让开发人员能将听觉对象精确放在虚拟听觉空间中,如:杜比全景声 (Dolby Atmos) 和 MPEG-H 标准;与 CEVA MotionEngine 头部追踪软件接口搭配,提供绘声绘影的听觉场景。

CEVA 针对包括 CEVA-X2、CEVA-BX1、CEVA-BX2 和 SensPro 系列等常时启动 (always-on) 的语音控制到多传感器融合做优化,为虚拟现实 (VR)/增強现实 (AR) 和新一代运动感知耳机带来沉浸式 3D 听觉体验。CEVA 还与加拿大语音接口软件公司 Fluent.ai 合作,为智能边缘设备提供超低功耗的"语音识别到语意理解"(speech-to-intent) 技术解决方案。值得留意的是,Flunt.ai 技术具有"隐私设计"(private-by-design) 的保护机制,能支持任何语言和口音,用户可自然地使用自己的母语对着设备讲话,不会失去个人隐私。

"端到端"口语理解技术可直接从输入的口语内容提取语意,取代传统云台先将口语转为文字、再用 NLP 理解内涵的方式。Flunt.ai 亦有效缩减口语识别模型,仅需数百 KB 小模型就能识别出多达数千个语意,且实时在嘈杂环境也可实现高精度。此外,Fluent.ai 把多种语言建立在单一模型中,意味着用户在与设备互动时可畅顺切换多种语言,不需在切换之间做语言设定。Fluent.ai 软件套件已针对 CEVA DSP 进行移植和优化,可使整套语音识别到语意理解在常时启动模式下顺畅运行;CEVA DSP 还能运行其他软件和算法,进一步增强功能组合。

"情境感知"不只为听觉享受,还关乎电池寿命
另一方面,高通 (Qualcomm) 《State of Play Report 2020》报告指出,"情境感知"(context awareness) 是消费者对无线耳罩式耳机和耳塞式耳机感兴趣的关键所在,可通过使用者活动或设备状态的自动适应来延长电池使用寿命并提供更好的使用者体验。CEVA 技术长 Erez Bar-Niv 表示,情境感知已迅速成为智慧手机、笔记本电脑、AR/VR 耳机、机器人、听戴式设备和穿戴式设备等不可或缺的功能;CEVA 冀以广泛的无线连接和智能感测技术产品组合,让用户得以避开处理传感器和连接通道的繁复工作而专注于开发用户应用程序。
 
图5:SensPro DSP 可应用于摄像头、雷达、光达 (LiDAR)、飞行时间 (ToF)、麦克风和惯性测量单元 (IMU) 等多种传感器
资料来源:CEVA 提供

近日推出的第二代 SensPro DSP 系列,在相同工艺节点下,可提升两倍 AI 推论性能 (内存带宽倍增),且功率效率比前代产品改进 20%。SensPro2 系列扩展到包括七个向量 DSP 核心,入门级速度达 1 TOPS、高阶达 3.2 TOPS。每个 SensPro2 系列成员皆可配置特定应用的指令集架构 (ISA) 以及针对浮点和整数数据类型的并行向量计算选项,通用 ISA 则可在所有 SensPro2 DSP 软件重新使用。升级后的浮点 DSP 具有高精度性能,更适合汽车动力传动应用,且 SensPro2 架构和核心已通过 ASIL B 硬件随机故障和 ASIL D 系统故障的认证。

CEVA SenslinQ 平台可从多个传感器收集数据并进行"噪声抑制和滤波"等前端信号预处理。该平台使用高阶算法创造"情境致能器"(context enabler),例如:活动分类、语音和声音检测以及在场和接近度检测,可被整合到设备、或以蓝牙/Wi-Fi/NB-IoT 无线方式传送到本地边缘设备或云台,让设备可确定并适应其运行所处的环境。此外,去年底发布的全新"Hillcrest Labs MotionEngine Hear"听觉传感器融合软件,可为听戴式设备导入直观的用户接口、手势控制、活动追踪和空间音频功能,且整体系统所需的功耗低于毫安级别。

CEVA 副总裁兼传感器融合业务部门总经理 Chad Lucien 表示,现今 TWS 耳机和其他听戴式设备的用例已超出听音乐或打电话范围,现今消费者期望拥有一些结合健身、娱乐、扩增实境和游戏功能与更直观的情境感知设备,而 MotionEngine Hear 软件将能克服在这些设备添加强大"高精度运动感应"功能时所面临的技术和性能难题,适用于 CEVA-BX1/CEVA-BX2 DSP、Arm Cortex-M 系列和 RISC-V 核心,支持包括意法半导体 (ST)、博世 (Bosch-Sensortec)、应美盛 (TDK InvenSense) 等各种商业加速度计、陀螺仪和接近传感器产品,有两种版本。

表:CEVA SenslinQ 平台版本说明

版本

特色

MotionEngine Hear Core

l   凭借活动分类 (包括步行、跑步和静止) 实现情境感知;

l   凭借轻击和双击提供改进的用户接口控制;

l   以仅加速度计的入耳侦测来控制播放并节省电能;

l   以计步器、活动侦测以及距离和卡路里估算值追踪健身活动;

l   传感器要求:仅加速度计。

MotionEngine Hear Premium

包括 Core 版本的所有功能,以及:

l   利用高精度 3D 头部追踪实现空间音频支持;

l   使用加速度计和/或接近侦测功能执行进阶的入耳侦测;

l   传感器要求:加速度计、陀螺仪和接近传感器;

资料来源:CEVA 提供

低功耗连接,蓝牙 5.2"LE Audio"祭新招:ISO X LC3
另值得留意的是,无线通信连接的性能与"预算"息息相关,包括:传输功率、发射天线增益和接收天线增益,而"同步通道"(isochronous channels, ISO) 是低功耗蓝牙 (BLE) 音频的基础。同步信道内的信息主要用來传输信框,以利接收端顺利解调,其中包含信框同步、通道估测、接收端狀态以及频率控制等侦测信号。蓝牙 5.2 版本引入 ISO 后,可设置几个低延迟的同步信道,通过 BLE 将音频串流传输到多个接收器,满足业界对高性能、低功耗无线耳塞耳机及其他音频外围设备 (包括耳机、智能扬声器和条形扬声器) 日益增长的需求。

WiFore Wireless Consulting 预测 2025 年,TWS 耳机和其他听戴式设备出货将超过 6.3 亿个。蓝牙 5.2 新的"LE Audio"音频传输标准 (低复杂度通信编译码器,LC3) 可增强音质,还能将音频串流传输到不限数量的接收设备,方便公共区域取得。CEVA"RivieraWaves"BLE 5.2 平台是首个通过蓝牙技术联盟 (SIG) 认证的 IP,兼容 BLE 和蓝牙双模,每个平台均由一个硬件基频控制器和一个软件协议堆栈组成,支持所有最新的蓝牙功能,包括:LE Audio 的同步通道、AoA/AoD 测向、随机广告信道索引、定期广告同步传输、GATT 快取技术和其他扩充功能。
 
图6:CEVA"RivieraWaves"蓝牙 IP 平台已获逾二十亿个出货设备和数十家授权许可厂商采用
资料来源:CEVA提供

自创指令集,非主流异军突起
视频和音频处理的性能要求大相径庭。前者以帧速率处理,对于静止图像一次抓取所有像素,使用卷积神经网络 (CNN) 处理;后者着重音频串流的时间序列,且性能要求相对低,倾向使用递归神经网络 (RNN) 而非 CNN。不甘训练模型受制于前述三大 IP 特定指令集,加拿大公司 PicoVoice 结合唤醒词 (可使用转移学习客制化) 与语音到意图 (可理解有限范围内的语音命令) 引擎,使用另类数学计算模拟矩阵乘法,推出一种可运行于 Arm11-based 小型 CPU 语音到文本的机器学习推论引擎。

PicoVoice 宣称,相较于边缘 NLP,在计算和存储资源减少一个量级,意味着可在各种设备上启用语音识别,无需将数据发送到云台;该模型可理解约 20 万个英文单词,宣称错误率与基于云台的语音助理相当。毫无疑问,在无线链路传输音频数据前,数字信号处理至关重要,包括:测量、过滤和压缩音频模拟信号;DSP 要考虑的不只是 MAC 多寡与 ISA 效能,还有与 AI 开源工具、语音功能软件堆栈,乃至于"噪声抑制和滤波"等前端信号预处理及后端无线连接易用性的整个生态系。