当前位置: CompoTech China > 专题 > 专题报道 >
 

舍弃加速器!Tensilica 独立自含式 DSP IP 更有效率

本文作者:任苙萍       点击: 2017-06-15 08:30
前言:
节能系统设计之低功耗计算核心
网络直播的浪涛泉涌,数千人同时在在线阅听影音内容已属司空见惯,移动终端的计算能力亦须跟上时代,视觉串流的处理尤其备受关注;加上监控和穿戴式设备以全年无休的"不断线"(always-on) 为发展职志,若无法压低功耗,电力恐撑没多久就玩完了。一般保全监控视频、汽车光达 (LiDAR)/雷达、无人机和传感器融合等应用的视觉系统需要两种优化计算:首先,运用传统计算摄像/成像算法对来自摄像头的输入进行强化,其次,由神经网络的辨识算法执行物体侦测和辨识。为达极致省电目的,从"IP 核心"根本革新有其必要性。
 
不只卷积层!突破 NN 引擎加速器极限,Vision C5 可加速所有计算架构
神经网络 (NN) 已成深度学习 (Deep Learning) 显学,但计算极具挑战。楷登电子 (Cadence) 旗下 Tensilica 新近发布的 Vision C5,颠覆同业在影像数字信号处理器 (DSP) 捆绑"NN硬件加速器"(accelerator) 的作法,是业界首款真正专为 NN 独立运作而生、被称为"独立自含式"的 DSP IP。Cadence Tensilica 处理器事业群资深总监 Steve Roddy 指出,早先 DSP+ NN 引擎的方式乃将神经网络编码分割处理,不断在 DSP 的网络层与加速器的卷积层之间加载、卸除,而将其他层级的计算工作全数丢给主要 DSP / CPU / GPU 一肩独揽。
 

照片人物:Cadence Tensilica 处理器事业群资深总监 Steve Roddy
 
"如此一来,不仅执行效率不佳、且会造成不必要的耗电",Roddy 直戳 DSP+ NN 引擎的痛点。他深入解说,如果 NN 架构的神经元 (Neurons) 数量增加,其间键接也会随之平方增加;若利用硬件加速 NN 的指令周期,所需硬件结构的复杂度将大幅增加而变得不容易实现。相较之下,新款 Vision C5 所建构的"通用型"神经网络 DSP,可加速所有神经网络计算架构,包括:卷积 (Convolutional)、全连接 (Fully connected)、池化/取样 (Pooling) 及标准化 (Normalization),以精算"型态辨识"(Pattern recognition) 与相邻数据间的关系。
 
Roddy 观察到 CNN 算法有三大发展趋势:1. 近来不到四年的时间,计算需求狂增十六倍;2. 网络架构趋于规律化,层次分明——例如,AlexNet 适用于规模较大的卷积计算、ResNet 适用于规模较小者,以及线性 (Linear) 或分支 (branch) 计算;3. 新应用层出不穷,遍及汽车、服务器、家庭语音助理、手机及监控等,并强调:"非卷积演算"因链结关系相对简单,计算次序无伤大雅,硬件加速器尚可应付;但若是具有绵密而复杂的对应关系、须步步为营的 CNN,逻辑一旦错位,这些次序不明确且无法判读意义的数据会让网络混淆。
 
表:可在嵌入式系统中执行神经网络的方案比较

 

CPU

GPU

NN 硬件加速器

视觉/影像 DSP

Vision C5 DSP

开发容易程度

l  纯软件

l  IP 易获取

l  纯软件

l  IP 易获取

硬件在试产瞬间已定,软件必须在不同的可编程 CPU / GPU / DSP 与加速器之间切割

l  纯软件

l  IP 易获取

l  纯软件

l  IP 易获取

功耗效率

最差

CPU 佳,但仍偏差

个别层级最佳,但全部加总后则不然

效率是 GPU 510

DSPNN 硬件加速器组合更佳

未来发展

可重新编程

可重新编程

难以重新编程,高风险

可重新编程

可重新编程

单一核心最大 NN 效能 ( / sec)

<< 200 GFLOP
(每秒浮点计算次数)

< 200 GFLOP
(每秒浮点计算次数)

最高至 1 TMAC

200250 GMAC

最高至 1 TMAC,但可扩充

资料来源:Cadence (Tensilica);笔者整理
 
兼顾 Always-On 低功耗与 Heavy-Duty 高计算需求
他进一步表示,"除了低功耗和高速计算,嵌入式 always-on 系统的神经网络处理器还需具备灵活性和因应未来需求的能力;而 Vision C5 借由消除神经网络 DSP 与主要视觉/影像 DSP 之间的外来数据移动,提供较 NN 加速器、GPU 和 CPU 更低功耗的解决方案及简单的 NN 编程模型"。至于近年坊间出现的"视觉处理器"(VPU) 变种产品,Tensilica 的看法是:VPU 须用更多硬件才能实现同等的效能,将会导致整体功耗变高,亦非理想方案。简言之,神经网络独立计算可降低 DSP 负载,同时免去与主要 DSP 频繁往返的疲于奔命。
 
于是,负责操持大局的视觉/图像 DSP 便能腾出更多资源、专注执行影像应用程序,将所有神经网络计算交由同样拥有完整战力的 Vision C5 DSP 全权处置,分工合作。Tensilica 透露他们另一个实现低功耗的秘诀是:应对"重量级任务"(Heavy-Duty) 是以很大的计算单元一次搞定,之后便完全停工;经实验结果证明,这将会比用大量平行计算、以低频率分批运行的方式省电。"更重要的是,Vision C5 DSP 具备可编程和可扩展特性,易于整合。此时此刻所选定的介接硬件平台,将决定两、三年后的产品销售格局!"Roddy 重申。
 

图1:Tensilica Vision C5 DSP 框图
资料来源:Cadence官网
 
他并提到,神经网络的工作量会因终端市场大相径庭,例如,手机每秒的吞吐量多在 200 GMAC (Giga Mac) 以下,但保全监控和汽车半自动驾驶由于 4K 高清画质的带动、以便易于辨识,就上看 1 TMAC (Tera MAC) 左右,若是全自动驾驶的无人车,则至少 10 TMAC 起跳!"因此,效能指标不是越高越好,扩充的灵活度更应列入优先考虑,只有一种规格是无法跟上市场变化脚步的",Roddy 解释。这多少也揭示为何 Tensilica 首发产品,是选择从每秒 1 TMAC 的计算能力着手 (以 16nm 工艺、在不到 1 mm2 的芯片面积实现),或许正是抓取中间值而来。
 
Cadence对映器工具组加持,编程及扩展皆唾手可及
根据 Tensilica 发布的数据显示,Vision C5 DSP 支持 1024 个 8 位 MAC 或 512 个 16位 MAC,两种位分辨率均能实现优异效能,与 GPU 相比并不逊色;要比知名 AlexNet CNN 效能基准快六倍、更是 Inception V3 CNN 效能基准的九倍!若仍力有未逮,其"平台式"的多处理器设计支持可变核心大小、深度和输入尺寸,亦能提供数个 TMAC 的高效能。它还包含多种系数压缩/解压技术,可随时加入最新开发的层体,为日后所需预留空间;反观硬件加速器因重新编程的能力有限,将来若想"平滑过渡",最坏的局面恐须全部从头来过!
 

图2:Cadence 神经网络对映器工具组 (Mapper Toolset) 提供标准的开源 CNN 框架,将信息流导入 CNN 映像器直抵 Vision C5 DSP
资料来源:Cadence官网
 
在指令集方面,Vision C5 DSP 拥有 128 路 8 位 SIMD 或 64 路 16 位 SIMD 的 VLIW SIMD 架构;另整合 128 位的 iDMA 及 AXI4 内存接口;其附带的 Cadence 神经网络对映器工具组 (Mapper Toolset) 可运用神经网络链接库功能,将所有 Caffe 和 TensorFlow 等主流框架生成的神经网络,对映成可执行且高度优化的 Vision C5 DSP 编码。Roddy 及随机受访的爱用者皆不讳言,这正是 Tensilica 与 Cadence 合并的最大优势:缩短学习曲线并简化认证作业,让程序代码更容易移植、编程更容易上手。
 
特别是新推出的 Vision C5 DSP 与 Tensilica 自身的 Vision P5 / P6 DSP 采用相同的实用软件工具组,更有助于产品及时上市。在 DSP 授权市场连年夺冠的 Tensilica,授权用户约 250 家;全球前二十大半导体厂、就有多达十七家皆是其用户,每年全球 IC 出货总量约 40 亿颗,生态系有超过 200 个合作伙伴,在音频 DSP 市场更是堪称独领风骚。事实上,除了视觉的高清辨识需要,听觉的娱乐飨宴亦从未缺席;搭配人工智能 (AI) 算法的语音控制系统以及具有指向性的 3D 立体声,有朝一日甚至能有更多功能性的应用。
 


图3:Cadence Tensilica Vision 系列 DSP 所侧重的应用市场各有不同
资料来源:Cadence官网
 
随着影音浪潮的无孔不入,借助神经网络架构的机会预料将有增无减;在特定应用 DSP IP 布局甚深、掌握专业知识的 Tensilica 有了 Cadence 集团资源加持,对于开发高效率的指令集将可获得最实质的挹注,继续发光发热。