上月举办的2022国际超大规模集成电路技术研讨会,英特尔公司资深副总裁暨封装∕测试开发事业部总经理Babak Sabi,以工程专家与产业领导者的身分,说明先进封装生态系所遇到的挑战,并以英特尔的解决方案为例,阐述现在以及未来的推动方向,更要带动整个产业的标准化,满足未来运算需求。
随着数字时代对于运算需求的增长,处理器核心越来越多、效能越来越强大,一个关键问题将逐渐浮上台面:「该如何提供足够的数据吞吐量,才能够维持高效能、高输出的运算结果?」大数据进一步催生高带宽、大容量内存的需求,但现实情况无法随心所欲地提升传输所需的功耗,需以有效率的方式传输大量数据。
位于处理器核心内部的高速缓存为静态内存(SRAM)结构,储存单一位通常需要6个晶体管,享有几乎与核心一样快的速度,倘若加大高速缓存,则十分耗能且需要不小的硅芯片面积;在处理器封装之外的系统内存为易失存储器(DRAM)结构,储存单一位仅需要1个晶体管和1个电容,设计上针对容量优化,提升速度反而不是件容易的事。在这两者之间,HBM(High Bandwidth Memory)以TSV(Through-Silicon Via)堆栈多个晶粒,单一封装使用1024bit总线宽度,以此提供更大的空间和更高的带宽,但需要更高密度、更先进的封装技术,尽可能地将HBM封装至靠近处理器之处。
追求降低每单位位移动的功耗需求,并持续推动互连带宽与密度,不仅要求先进封装需达成全面性的创新,更需要整个产业生态系一同合作,从系统、电路板、封装再到复合晶粒体(die complex),都有要跨越的城池。英特尔已有推动系统、电路板、封装、晶粒开发和整合的路线图,与先进封装有关的内容包含:
系统层级—透过改良后的晶粒和封装架构,降低每单位位移动时所需功耗。
电路板层级—整合光学传输,以便继续提升带宽速度与密度。
封装层级—使用次世代热界面材料(TIM)改善散热、透过Coax MIL提升电源传输效率、共同封装光学传输组件。
复合晶粒体—提升晶粒间的互连带宽,并制定相互沟通的产业标准(如UCIe)。
追求缩小间距、提升带宽、改善效率
英特尔的封装技术拥有悠远的历史,包含早已大量使用的覆晶球栅数组(FC-BGA),封装尺寸可达56 x 100(mm),基板内含24层金属层,未来将朝向92 x 92(mm)和26层迈进。
位于封装基板内部的嵌入式多晶粒互连桥接EMIB(Embedded Multi-die Interconnect Bridge)和3D堆栈Foveros等先进封装技术,分别已应用至Intel® Stratix® 10 FPGA(尺寸55 x 55 mm、凸块间距55μm、基板内嵌6个桥接芯片)和代号Lakefield的处理器(尺寸12 x 12 mm、凸块间距50μm、2层内存、1层运算晶粒、1层包含I/O功能的基础晶粒)。今年EMIB已扩大应用至代号Sapphire Rapids的处理器,并正在研发凸块间距45μm版本。
众所期待的Ponte Vecchio,即是应用凸块间距55μm EMIB和36μm Foveros的尖端工程技术结晶,单一封装内含47个功能芯片块(functional tile)加上16个热传芯片块(thermal tile),横跨5个制程节点,共计超过千亿个晶体管。未来代号Meteor Lake的处理器,亦将使用缩小凸块间距的Foveros。英特尔更会提供新一代Foveros,包含纵向、横向均可相互连结晶粒的Foveros Omni,凸块间距再次缩减至25μm,以及铜对铜接合技术的Foveros Direct,间距更缩减至9μm。
整体而言,Foveros Direct所能提供的带宽,相较Foveros∕Foveros Omni、EMIB,以及采用UCIe规范的多芯片封装来得更高;另一方面,Foveros Direct每单位位移动所需的功耗,也是当中最低的。EMIB和Foveros在带宽和效率方面,迭代之间大约能够提供40%~70%不同程度的改善。
标准化连接接口并满足未来需求
芯片分拆理念不仅能够针对某个功能区块使用最佳制程生产,更能够将来自多家厂商的芯片整合至单一封装之中,大幅度提升良率和上市时间。为了落实真正的晶粒「即插即用(Plug & Play)」,制定统一的晶粒间传输规范是首要之务。英特尔所主导的UCIe(Universal Chiplet Interconnect Express)获得包含AMD、Arm、ASE、Google Cloud、Meta、Microsoft、Qualcomm、Samsung、TSMC等众多厂商的支持,让来自不同厂商、代工厂的晶粒能够在封装内相互沟通。
UCIe汲取十分成熟的PCI Express和Compute Express Link产业标准优势,为生态系注入标准化、开放式、多种协议之外,尚有许多特色,例如提升传输效率和2ns以下的延迟时间、高密度并列式传输、NRZ编码支持至32GT/s,并支持多样化的装置、不同的制程,以及各式各样的先进封装。在标准封装当中,可达成100μm~130μm凸块间距、10mm~25mm通道长度,每mm最高可提供224GB/s速率;转进先进封装(例如EMIB),凸块间距则能够缩减至25μm~55μm,每mm速率则大幅度提升至1317GB/s,有助于实现高密度、高效能的先进封装产品。
UCIe更是个持续演进,满足未来10年预期需求的开放式标准,透过不断提升每单位芯片面积的带宽,与产业界的实际应用相互契合。
强化散热与供电效率
异质整合将多个不同功能的主动式晶粒,整合至单一封装之内。原本散居电路板各处的芯片,聚集在面积更小的单一封装,此举对散热和供电形成挑战。例如晶粒间的热阻、紧邻晶粒传来的热干扰,以及堆栈晶粒造成功率密度的提升,都是需要攻克的高墙之一。
采用Foveros Omni和Foveros Direct等更为先进的封装技术,是能够有效降低晶粒间热阻的手段,我们也可以在IHS(Integrated Heat Spreader)与最上层晶粒之间,填入金属热界面材料,协助快速导出封装内部晶粒的运作废热。
金属热界面材料在现有产品中并不罕见,早已应用多年,随着进入先进封装时代,我们要求热传导率更好、更低热阻值的次世代材料,并且要能够与来自多家不同晶圆制造厂的晶粒达成良好的兼容性,同时还要解决先进封装当中,内部晶粒高度相异的难题,以及验证长期使用后的可靠度。
改善先进封装的散热问题,从芯片设计源头开始规划也是个解决方案,设计芯片和封装时就要考虑到散热效果。以散热优化为目标,在封装架构内部规划晶粒摆放的位置和堆栈。EDA(Electronic Design Automation)工具最好也要能够共同设计芯片和封装,以便达成改良散热的目标。
于芯片封装中整合电压调节功能,能够提升电源供应效率。起初FIVR(Fully Integrated Voltage Regulator)的电感采用以空气作为核心的ACI(Air Core Inductor)型式,目前客户端产品则是利用摆放在BGA基板底部的MIA(Magnetic Inductor Array)形式,相较ACI的效率大约提升2%~3%,并透过多相位的方式,提升更宽广的电流运作范围。
而服务器产品则是透过封装基板的特殊结构Coax MIL,作为FIVR的电感使用,相较ACI可提升3%~4%的效率。英特尔未来还会替Coax MIL导入High Q电感,Q值越高,代表该电感的耗损越小,相较ACI达成10%~12%的电源供应效率改善,未来4年至5年也要让其电感值翻倍成长。
将来能够透过Foveros Omni异质整合电压调节小芯片(chiplet),这个小芯片能够采用其它的化合物半导体材质(例如氮化镓)制作,达成高电压∕高功率转换应用,再一次地提升电源供应效率。
光学传输突破电气极限
芯片间的HSIO(High Speed Input∕Output)主要透过铜导线传输,在过去10年之间,不断在封装和电路板之中持续创新,例如制定短距离(short-reach)和长距离(long-reach)传输的不同版本,以至于更快的标准如XSR、XSR+。目前铜线传输速度最快可达224Gbps SerDes。
近年来不断提升电路板和封装基板的质量、改善布线技巧、降低导线粗糙度,随着传输速度日益增长,我们也不断寻找介电材料耗损系数(dielectric material loss tangent)表现较佳的材质,甚至导入许多先进技术,让讯号分析中的「眼图」开眼程度维持在可接受的范围。另一方面,提升电气讯号传输速度也需要更多的功率,可预见将会超越整个封装所能够负荷的大小。
若要继续提升带宽密度并降低每单位位移动所需能量,I/O相互连结的方式将从电气讯号转换至光学讯号,这不是会不会发生,而是什么时候会发生的问题,10年内将可见到此一重大变革。
英特尔过去已陆续完成封装整合光学讯号传输的展示,初步在交换器的封装上,以电气接口链接位于封装中央的交换器晶粒与四周的光子引擎组件;后来更进一步透过EMIB连结两者,每mm传输速率大于1Tbps,移动每位所需能量约从10皮(p、10-12)焦耳降低至3皮焦耳。先进封装技术让整合光学I/O成为可能,产业也必须要达成可持续拓展的制造技术和优化生产良率架构。
我们需要一个结合芯片、封装、系统层级的完全解决方案,并持续缩小间距,达成异质整合,汲取晶粒对晶粒互连标准的优势。我们也需要更好的设计系统,能够完成温度管理和电源供应,因为这需要从一开始就纳入考虑,无法以事后追加的方式进行。I/O传输效率的未来,则是仰赖光学共同封装。
先进封装的未来需要产业伙伴的共同参与,真正完成「即插即用的标准化」。