当前位置: CompoTech China > 专题 > 专题报道 >
 

仿效人脑决策!Intel Nervana NNP 开先河

本文作者:任苙萍       点击: 2017-11-13 11:15
前言:
AI 抢滩阵式2:训练、推论还不够,自主学习是下一步
仿效人脑决策!Intel Nervana NNP 开先河
 
如果说,物联网是科技业界的"下一件大事",那么,人工智能 (AI) 就是下一个产业巨浪——英特尔 (Intel) 如是说。不甘让 GPU 独领风骚,Intel 于 2016 年收购在 AI 圈小有名气的 Nervana Systems 公司,顺势延揽该公司的联合创办人暨首席技术长 Amir Khosrowshahi 加入 Intel 人工智能产品事业群 (AIPG)、担任副总裁暨技术长一职。Khosrowshahi 在神经网络 (Neural Networks)、机器学习 (Machine Learning) 和深度学习 (Deep Learning)的专业知能广受业界认同。
 

照片人物:Intel 人工智能产品事业群 (AIPG) 副总裁暨技术长 Amir Khosrowshahi
 
云服务大跃进,计算周期耗时长
Khosrowshahi 揭示:AI 正逐渐融入我们日常生活,在消费、保健、财务、零售、政府、能源、交通、产业……,全面激起千层浪;可预见的是,今后,"资料洪流即将爆发"!预估到 2020 年,每位网络用户、平均每天将产生 1.5 GB 的数据流量;每家智慧医院将超过 3,000 GB;每辆自驾车上看 4,000 GB;而智能工厂更惊人,将超过 1,000,000 GB!为应对漫溢的数据并寻求计算突破及创新,届时,从数据中心的大型主机、边缘 (Edge) 基础服务器到云平台的 AI 计算周期 (Compute Cycles,应用程序之处理、执行的时间总和) 将遽增 12 倍!
 
Khosrowshahi 表示,目前 AI 运用还停留在描述、诊断型的初级操作,但用于预测、指示及认知的进阶分析正在兴起。深度学习 (Deep Learning) 只是核心起点,向外扩展至神经网络和机器学习,才是最终应用取向。以人脸辨识为例,典型的机器学习只是以脸部 T 字部位为基准、定出若干重点函数,然后通过支持向量机 (Support Vector Machine, SVM)、随机森林 (Random Forest)、原始贝氏机率 (Naïve Bayes) 演算,建立判定树 (Decision Trees) 模型、进行逻辑回归 (Logistic Regression) 分析,最终加以组合。
 
然而,结合神经网络的"深度学习"可没这么简单!它须建置好几个计算层,至少包括 6,000 万个参数,以撷取数据找出特征、在抽象层萃取特性;期借助更多资料改善效能、提高表征再现能力 (Representational Power)。放眼未来 AI 与其他关键商务作业负载并行运作需求,Intel 将多年研发与并购成果统整成为"Nervana"平台,企图通吃 AI 从数据中心主机、边缘 (edge) 设备到云服务的计算大饼。Khosrowshahi 强调,"Nervana"平台拥有完整的软件堆栈、友善的用户接口及整套系统 (Turnkey System),可缩短开发周期并做个别加速。
 
表:"Nervana"平台之产品组合

产品

说明

Xeon

可扩充之计算处理器。方便为 AI 日后更高的工作负载预留升级空间,并针对最密集的深度学习训练 (training) 工作,推出名为"Lake Crest"的专属芯片。

Mobileye

专为自驾车设计的视觉技术。

FPGA

用以执行深度学习推论 (inference) 的可编程加速器。

Movidius

低功耗视觉技术,让机器学习得以在多样化的终端设备执行。

数据源:Intel 提供,编辑部整理


挥别 Cache!Nervana NNP 用软件管理片上记忆
Intel 与 NASA Frontier Development Lab 合作,运用 Nervana 深度学习技术协助描绘月球地图,以及包括太空天气、太空资源和行星防御等多项太空任务研究;而新近发布的 Nervana 类神经网络处理器 (Neural Network Processor, NNP),则是业界首款专为类神经网络 (Neural Network) 所设计的芯片,将于今年底前出货。NNP 的设计灵感源自人脑,训练电脑根据模式 (pattern) 与关联性 (association) 做决策。Intel 已着手研发不同世代的 NNP 产品,期于 2020 年达成将 AI 效能提高百倍的目标。
 
Nervana NNP 之所以令人瞩目,是因为它绕过标准高速缓存 (Cache),改用软件管理片上内存,以极大化每个硅片的计算利用率!单一芯片上的神经网络计算主要受限于电源和内存带宽,Nervana NNP 特有高速芯片互连设计,可提高吞吐量、大量双向传输数据,让多个芯片上的神经网络参数模型使出浑身解数做并行计算。此外,Intel 还独家新创名为"Flexpoint"的数字格式,允许将标量计算 (scalar computations) 导入定点加乘,扩大共享指数的动态范围;受惠于电路缩小,不仅大幅提高芯片的并行能力,也降低每次计算的必要功率。
 

图1:Intel Nervana 类神经网络处理器 (NNP)
数据源:Intel 提供
 
与此同时,Intel 还展开自主学习 (self-learning) 的类神经型态测试芯片,不必经过"训练"就能执行复杂的感知作业,例如:解读心律、侦测异常网络。台湾分公司企业解决方案事业群协理郑智成补充,"Nervana"平台的意义在于将 Intel 所有 AI 产品集结整合,包括先前推出的"Crest"系列特定应用集成电路 (ASIC) 芯片——可直接内建在服务器的电路板或做成插槽板卡,但当下只供高阶服务器产品使用,预计明年才会普及至所有服务器产品。他指出,云服务供货商可借 ASIC 优势加速 AI 运作速度,神乎其技地缩减 AI 训练或推论时间。
 

照片人物:Intel 台湾分公司企业解决方案事业群协理郑智成
 
AI 最强研发能量,在学界!
郑智成声明,对比历史悠久、已有多种应用、同样可作为加速器的 FPGA,多以开发板形式供货,两者角色并不冲突。他另提到,AI 其实早在五、六十年前就已出现,近来的百花齐放若用"AI 复兴"形容也不为过,幕后最大动力就是"类神经网络"的长足进展;以人脸、对象辨识的正确率为例,2012 年之前,要超过八成极其困难,但现已普遍来到 95% 以上的水平。遗憾的是,上一波 AI 热潮并没有太多实质产出,以致企业对相关投资兴趣缺缺;倒是在学术界持续努力下,迄今已蕴藏可观的研发人才及能量。
 
郑智成透露,中国大陆曾对全球大学在 AI 的发展状况做统计,发现全亚洲只有台湾、日本及新加坡三地的大学有参与 AI 盛宴。"台湾有很多优秀师生团队在海外 AI 竞赛皆夺冠,显示台湾在 AI 有很好的实力;但若不能善用硬件资源、将系统优化,恐虚掷许多光阴在模型训练及修改上。有时单是训练一个模型就得十多天,调整参数又须耗上好几十天",他感叹说。有鉴于此,Intel 特别为大学院校师生制订一套方案,在日前 Intel AI Day 活动中,宣布将在台湾引进专为学术研究而设立的"Intel Nervana AI 学院计划"。
 
Intel 与 Coursera 教育机构合作开设 AI 在线课程,包括训练、实作演练工作坊;除了独家提供可远程访问的工具及资源,并敦请专家指导。Intel 先前与子宫颈癌研究单位 MobileODT 及数据分析平台 Kaggle 合作,举办子宫颈癌筛检研究竞赛项目,亦是结合 Nervana AI 学院资源的具体展现。为强化支持开放 AI 产业体系,Intel 特推出一系列开发工具以增进易用性与跨平台兼容性,支持多种开源深度学习框架。Intel Nervana DevCloud 计划可让 AI 开发者存取云资源。
 

图2:Intel 支援多种 AI 开源深度学习框架
数据源:Intel 提供
 
纵向+横向扩展,让计算发挥最大效益
郑智成以 GitHub 上最活跃的两大主流框架——Caffe 和 Google TensorFlow 为例,由 Intel 发行、维护的 Caffe 版本的价值在于:通过系统优化手段,实现单一节点的纵向扩展 (Scale-up) 及多节点的横向扩展 (Scale- out),可提升数十到数百倍效能。例如,以 128 核服务器完胜双核、四核的 Notebook / PC,或善用电脑集群 (Cluster) 技术扩增节点数,让原需费时三天的计算工作压缩至一小时内完成;"就算整个数据中心只有一台服务器,也能运用大型丛集加速工作时程"。至于Google TensorFlow,由于其授权模式类似 Android,故由 Google 全权维护。
 
即使如此,Intel 自 TensorFlow 1.1 版后仍积极参与优化 (最新版本为 1.3),并将程序代码贡献出来,让开发者能最大限度利用硬件资源。另在软件开发工具包 (SDK) 方面也不马虎,例如,内建 Movidius Myriad 2 VPU 的神经计算棒 (NCS) 有两个版本:一是搭载训练完成的 Caffe 演算模型 (售价 79 美元),一是新近发布支持 TensorFlow 的版本 (售价 99 美元)。那么,不同应用对于软、硬件架构是否有不同要求?郑智成的回答是,AI 实际应用层面还是源于用户创意,主要区别在软件算法,硬件层级并无差异,而用于训练或推论也仅差在资料量大小。
 

图3:Movidius 神经计算棒 (NCS) 已于今年 10 月发布支持 TensorFlow 框架的 SDK,如黄色框线所示
数据源:
https://developer.movidius.com/
 
例如,用训练芯片做推论、一个大芯片只做单一信道的辨识,似乎不太有效率。因此,Intel 现阶段意在为开发者提供通用框架 (general- purpose framework)、让设备/服务供货商得以基于自身需求优化,并未针对特定 AI 应用再细分不同架构。不过他亦没把话说死,表示日后若有市场需要,Intel 也不排除为影像、语音等分众应用推出专用芯片。郑智成认为,以往软件算法需时数天的计算,经由 AI 硬件加速器可能只要数小时就搞定,预料 FPGA、终端设备或网关 (Gateway) 将因而蓬勃发展,数据中心并非 AI 唯一市场。
 
例如,微软就采用 Intel Stratix 10 FPGA 作为其深度学习加速平台 (Project Brainwave) 的硬件加速器,强化云环境的"AI 实时计算效能",因应智慧手机人脸、语音识别或自驾车所需。另成本高昂的无人机,可运用 AI 对象辨识避免与树木或障碍物碰撞、坠毁,甚至会认主人,只要比个手势就能拍照或让它自动降落在手上,都是有趣的 AI 终端应用。