(报告作者:方正证券研究所分析师吴文吉)
       AIGC算力大时代下,GPU支撑强大的算力需求。ChatGPT这样的生成式AI不仅需要千亿级的大模型,同时还需要有庞大的算力基础。


       1GPU封装:大算力时代下,被寄予厚望的Chiplet
       AIGC算力大时代下,GPU支撑强大的算力需求。GPU即图形处理器(英语:graphicsprocessingunit),又称显示核心、视觉处理器、显示芯片,可以兼容训练和推理,被广泛运用于人工智能等领域。作为AI硬件的心脏,GPU的市场被英伟达和AMD等海外巨头垄断。
       ChatGPT这样的生成式AI不仅需要千亿级的大模型,同时还需要有庞大的算力基础。训练AI现在主要依赖NVIDIA的AI加速卡,达到ChatGPT这种级别的至少需要1万张A100加速卡,而一颗英伟达顶级GPU单价高达8万元。
       存算一体化突破算力瓶颈,GPU封装进入正当时。在AI运算中,神经网络参数(权重、偏差、超参数和其他)需要存储在内存中,常规存储器与处理器之间的数据搬运速度慢,成为运算速度提升的瓶颈,且将数据搬运的功耗高。2016年英伟达率先推出首款采用CoWoS封装的绘图芯片,为全球AI热潮拉开序幕。英伟达H100拥有800亿个晶体管,相比上一代的A100,有着六倍的性能提升以及两倍的MMA改进,采用的CoWoS2.5D晶圆级封装。在算力芯片性能暴增的时代下,相关的封装产业链也逐渐的进入高速发展时期。
       Chiplet是后摩尔时代的半导体工艺发展方向之一。Chiplet将大型单片芯片划分为一组具有单独功能的小芯片单元die(裸片),小芯片根据需要使用不同的工艺节点制造,再通过跨芯片互联和封装技术进行封装级别集成,降低成本的同时获得更高的集成度。


       Chiplet技术要把原本单个大硅片“切”成多个再通过封装重新组装起来,而单个硅片上的布线密度和信号传输质量远高于Chiplet之间,这就要求必须发展出高密度、大带宽布线的先进封装技术,尽可能的提升在多个Chiplet之间布线的数量并提升信号传输质量。支持Chiplet的底层封装技术目前主要由台积电、日月光、英特尔等公司主导,包含从2DMCM到2.5DCoWoS、EMIB和3DHybridBonding。
       2.CoWoS:适用于HPC与AI计算领域的2.5D封装技术
       CoWoS(Chip-on-Wafer-on-Substrate)是台积电主导的,基于interposer(中间介质层)实现的2.5D封装技术。CoWoS先将芯片通过CoW封装至Wafer(硅晶圆),并使用硅载片上的高密度走线进行互联,再把CoW芯片与Substrate(基板)连接,整合成CoWoS,达到封装体积小、功耗低、引脚少的效果。


       TSV(ThroughSiliconVia,硅通孔)是CoMoS封装的关键技术。
       TSV在芯片和芯片之间、晶圆和晶圆之间制作垂直导通,通过铜、钨、多晶硅等导电物质的填充,实现硅通孔的垂直电气互连,是目前唯一的垂直电互联技术。台积电根据中介层的不同,将其CoWoS封装技术分为三种类型:CoWoS-S、CoWoS-R、CoWoS-L。


       CoWoS-S从2011年的第一代升级到2021年的第五代,第六代技术有望于2023年推出,将会在基板上封装2颗运算核心,同时可以板载多达12颗HBM缓存芯片。第五代CoWoS-S技术使用了全新的TSV解决方案,更厚的铜连接线,晶体管数量是第3代的20倍。它的硅中介层扩大到2500mm2,相当于3倍光罩面积,拥有8个HBM2E堆栈的空间,容量高达128GB。并且,台积电以MetalTim形式提供最新高性能处理器散热解决方案,与第一代GelTIM相比,封装热阻降低至0.15倍。


       AI时代下算力需求日益增长,GPU先进封装的重要性凸显。CoWoS协助台积电拿下英伟达、AMD、Google等高性能计算芯片订单。根据DIGITIMES报道,ChatGPT日益普及所刺激的高端AI芯片需求激增,预计将推动对台积电CoWoS封装的需求,微软已与台积电及其生态系统合作伙伴接洽,商讨将CoWoS封装用于其自己的AI芯片。
       英伟达高端GPU都采用CoWoS封装技术,将GPU芯片和HBM2集合在一起。2016年英伟达推出TeslaP100,通过加入采用HBM2的CoWoS第三代技术,将计算性能和数据紧密集成在同一个程序包内,提供的内存性能是NVIDIAMaxwell架构的三倍以上。并且,面向HPC和AI训练,英伟达以Volta、Ampere架构为基础推出了V100、A100高端GPU,均采用台积电CoWoS封装,制程分别为12nm、7nm,分别配备32GBHBM2、40GBHBM2E内存。基于台积电最先进的CoWoS封装,全新Hopper架构的H100GPU制程达到4nm,具有80GB的HBM3内存和超高的3.2TB/s内存带宽。


       AMD的数据中心加速器芯片将重新采用CoWoS封装。AMD在2017年考虑将Vega20的供应商从GlobalFoundries更换为台积电,主要看重其7nm工艺和CoWoS先进封装,Vega20配备32GBHBM2内存,直接对标英伟达V100加速器。根据DIGITIMES报道,AMDMI200原本由日月光集团与旗下矽品提供,应用FO-EB先进封装(扇出嵌入式桥接),新MI系列数据中心加速器芯片将重新采用台积电先进封装CoWoS。基于AldebaranGPU的MI250或采用第五代CoWoS封装技术,制程6nm,实现128GBHBM2E内存等超高性能配置。


       3.HBM:存算一体化下的主流,突破了内存容量与带宽瓶颈
       HBM是“GPU+存储器”的模式,将解决高算力AI背景下芯片的“存算一体”问题。HBM(HighBandwidthMemory,高带宽内存)是一款新型的CPU/GPU内存芯片,将多个DDR芯片堆叠在一起后和GPU封装在一起,实现大容量,高位宽的DDR组合阵列。HBM主要是通过TSV技术进行芯片堆叠,即DRAM芯片上搭上数千个细微孔并通过垂直贯通的电极连接上下芯片;DRAM下面是DRAM逻辑控制单元,对DRAM进行控制;GPU和DRAM通过uBump和Interposer(起互联功能的硅片)连通;Interposer再通过Bump和Substrate(封装基板)连通到BALL;最后BGABALL连接到PCB上。
       虽然多核(例如CPU)/众核(例如GPU)并行加速技术也能提升算力,但在后摩尔时代,存储带宽制约了计算系统的有效带宽,芯片算力增长步履维艰,因此存算一体的芯片应运而生。存算一体是在存储器中嵌入计算能力,以新的运算架构进行二维和三维矩阵乘法/加法运算。存算一体的优势是打破存储墙,消除不必要的数据搬移延迟和功耗,并使用存储单元提升算力,成百上千倍的提高计算效率,降低成本。


       HBM突破了内存容量与带宽瓶颈。凭借TSV方式,HBM使DRAM从传统2D转变为立体3D,比GDDR5节省了94%的表面积,随着半导体行业向小型化发展,HBM能更充分地利用空间,实现集成化。
       同时,HBM大幅提高了容量和数据传输速率,具有更高带宽、更多I/O数量、更低功耗,革命性地提升了DRAM的性能。与GDDR5相比,GDDR5内存每通道位宽32bit,带宽为32GB/s;HBM2的每个堆栈支持最多1024个数据pin,每pin的传输速率可以达到2000Mbit/s,那么总带宽为256GB/s;在2400Mbit/s的每pin传输速率之下,一个HBM2堆栈封装的带宽就是307GB/s。HBM通过提升带宽、扩展内存容量,提高了存储与CPU/GPU之间的数据传输速度,从而减少了内存量小带来的延迟问题。


       HBM3即将问世,最高的数据传输速率提升到8.4Gbps。从HBM性能的历史演进来看,2013年,SK海力士在业界首次成功研发出HBM,HBM1的数据传输速率大概可以达到1Gbps左右;2016年推出的HBM2为每个堆栈包含最多8个内存芯片,同时管脚传输速率翻倍达2Gbps;2018年推出的HBM2E,最高数据传输速率可以达到3.6Gbps,可实现每堆栈461GB/s的内存带宽。2021年,SK海力士和Rambus先后发布最高数据传输速率6.4Gbps和8.4Gbps的HBM3产品,每个堆栈将提供超过819GB/s和1075GB/s的传输速率。SK海力士HBM3显存的样品已通过NVIDIA的性能评估工作,在2022年6月向NVIDIA正式供货;RambusHBM3或将在2023年流片,实际应用于数据中心、AI、HPC等领域。随着HBM3的性能提升,未来市场空间广阔。


       相关标的:长电科技、通富微电、华天科技、甬矽电子、晶方科技。
       以上内容仅供学习交流,不构成投资建议。详情参阅原报告。
       文库-远瞻智库

友情提示

本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!

联系邮箱:1042463605@qq.com