NetSpeed:我们能弥补AI芯片的短板

本文作者:徐俊毅       点击: 2018-07-20 13:50
前言:
 

NetSpeed Systems大中华区销售总监黄啓弘
 
人工智能(AI)技术飞速发展,对计算单元的性能和并行处理需求,已经超越过去几十年摩尔定律的模式,并改变了计算架构。尽管科技人员在计算系统中堆积几百个乃至上千计算单元,但是仍然难以满足AI对性能和效率的渴求。
 
典型的AI结构图包括,学习,建模、预测等模块,每一个模块都需要大量的计算力,这让设计人员面临全新挑战。比如,AI系统在训练侧与推理侧都需要大型矩阵乘法,满足这样的工作负载需要大量计算单元(处理器内核),大量并行结构,实现点对点通信。这在硬件结构上,使得计算系统对位宽要求越来越高,内部512bit,1024bit位宽也只是勉强满足现有应用。未来随着内核数量增加,就需要更多的位宽,而带宽(位宽乘以频率)更是达到(TB/s)级别(现在的处理器仍然是GB/s)的带宽。
 
尽管处理器数量可以不断增加,但是增加位宽,需要增加器件内部连接通道,难度却是几何级数增加的,设计复杂度激增,良率下降等等诸多问题,造成成本难以接受。
 
人们需要更好的方法来改善计算单元内部通信的问题。
 
互联网通信的路由技术,给了设计人员很大的启发,借助路由技术,互联网数据可以通过优化的路径以最稳定可靠的方式在收发端建立起联系,而无需占用两端间所有的通信资源。因此,将成百上千计算单元的路径看作各个互联网节点,让数据更加有效率地进行传递,将大大节约芯片内部的通信线路设计成本,降低设计复杂度和制造难度。
 
芯片内部的这种大量单元构成的系统被赋予一个形象的名字----片上网络。随着芯片内部计算单元的增多,片上网络的性能和优化成为新的技术热点。
 
NetSpeed公司就是研究片上网络的IP授权公司,他们为移动设备、网络系统和高性能计算等众多市场的片上系统设计人员提供高扩展性的缓存一致性片上网络IP。
 
该公司创始人兼CTO Sailesh Kumar,是 IP 转发 (IP forwarding)、深度包检测 (deep packet inspection)、存储系统和高速系统算法方面的著名专家。曾经在华为科技公司担任首席架构师,负责开发业内首个 100G 服务网络处理器芯片组的智能内存子系统。
 
如今,当AI处理器内部计算单元越来越多的时候,片上网络IP就越有用武之地。
 
NetSpeed Systems日前宣布推出业界首款以人工智能为基础的SoC芯片内部互连解决方案Orion AI。该方案支持多播与广播等先进特性,能极大提升人工智能SoC与加速器ASIC的性能与效率,可广泛应用于数据中心、自动驾驶、AR/VR,以及先进视频分析。
 
“这些新SoC内部体现出的是一种新的数据流,”NetSpeed首席执行官Sundari Mitra说道,“一般来说,想实现快速有效的点对点数据交换,就需要大量的计算单元。传统架构运行方式不同,采用中央存储作为数据交换系统。而人工智能系统需要任意位置数据交换,这可以通过广泛的接口而实现,并需要支持长突发传输。Orion AI的一个关键优势就是能够支持多重多播请求,并支持非阻塞传输。”
 
Orion AI由NetSpeed的图灵机器学习引擎提供支持,该引擎使用监督学习来探索和优化SoC设计与架构。片上带宽高达(TB/s)万亿位,并具备支持数千计算引擎的底层架构。它提供超宽数据通路,接口位宽高达1024位,内部结构位宽更高,并可支持高达4K字节的长突发传输。
 
“Orion AI的 IP已经授权给地平线机器人、寒武纪、百度以及Esperanto等领先的人工智能公司。”NetSpeed Systems大中华区销售总监黄啓弘介绍。
 
中国正处于AI芯片的研发热潮之中,对先进技术更是前所未有的渴求,是NetSpeed希望大力开拓的主要目标市场,通过与中国领先的AI公司合作,NetSpeed期望实现与本地芯片产业的双赢。