主页 › 阅读 › 社会新闻 › “大算力时代”+“存算一体化”，GPU 封装正当时

“大算力时代”+“存算一体化”，GPU 封装正当时

百花财经v 发布于 1月前

33 0 0

       （报告作者：方正证券研究所分析师吴文吉）
       AIGC算力大时代下，GPU支撑强大的算力需求。ChatGPT这样的生成式AI不仅需要千亿级的大模型，同时还需要有庞大的算力基础。

       1GPU封装：大算力时代下，被寄予厚望的Chiplet
       AIGC算力大时代下，GPU支撑强大的算力需求。GPU即图形处理器（英语：graphicsprocessingunit），又称显示核心、视觉处理器、显示芯片，可以兼容训练和推理，被广泛运用于人工智能等领域。作为AI硬件的心脏，GPU的市场被英伟达和AMD等海外巨头垄断。
       ChatGPT这样的生成式AI不仅需要千亿级的大模型，同时还需要有庞大的算力基础。训练AI现在主要依赖NVIDIA的AI加速卡，达到ChatGPT这种级别的至少需要1万张A100加速卡，而一颗英伟达顶级GPU单价高达8万元。
       存算一体化突破算力瓶颈，GPU封装进入正当时。在AI运算中，神经网络参数（权重、偏差、超参数和其他）需要存储在内存中，常规存储器与处理器之间的数据搬运速度慢，成为运算速度提升的瓶颈，且将数据搬运的功耗高。2016年英伟达率先推出首款采用CoWoS封装的绘图芯片，为全球AI热潮拉开序幕。英伟达H100拥有800亿个晶体管，相比上一代的A100，有着六倍的性能提升以及两倍的MMA改进，采用的CoWoS2.5D晶圆级封装。在算力芯片性能暴增的时代下，相关的封装产业链也逐渐的进入高速发展时期。
       Chiplet是后摩尔时代的半导体工艺发展方向之一。Chiplet将大型单片芯片划分为一组具有单独功能的小芯片单元die（裸片），小芯片根据需要使用不同的工艺节点制造，再通过跨芯片互联和封装技术进行封装级别集成，降低成本的同时获得更高的集成度。

       Chiplet技术要把原本单个大硅片“切”成多个再通过封装重新组装起来，而单个硅片上的布线密度和信号传输质量远高于Chiplet之间，这就要求必须发展出高密度、大带宽布线的先进封装技术，尽可能的提升在多个Chiplet之间布线的数量并提升信号传输质量。支持Chiplet的底层封装技术目前主要由台积电、日月光、英特尔等公司主导，包含从2DMCM到2.5DCoWoS、EMIB和3DHybridBonding。
       2.CoWoS：适用于HPC与AI计算领域的2.5D封装技术
       CoWoS（Chip-on-Wafer-on-Substrate）是台积电主导的，基于interposer（中间介质层）实现的2.5D封装技术。CoWoS先将芯片通过CoW封装至Wafer（硅晶圆），并使用硅载片上的高密度走线进行互联，再把CoW芯片与Substrate（基板）连接，整合成CoWoS，达到封装体积小、功耗低、引脚少的效果。

       TSV（ThroughSiliconVia，硅通孔）是CoMoS封装的关键技术。
       TSV在芯片和芯片之间、晶圆和晶圆之间制作垂直导通，通过铜、钨、多晶硅等导电物质的填充，实现硅通孔的垂直电气互连，是目前唯一的垂直电互联技术。台积电根据中介层的不同，将其CoWoS封装技术分为三种类型：CoWoS-S、CoWoS-R、CoWoS-L。

       CoWoS-S从2011年的第一代升级到2021年的第五代，第六代技术有望于2023年推出，将会在基板上封装2颗运算核心，同时可以板载多达12颗HBM缓存芯片。第五代CoWoS-S技术使用了全新的TSV解决方案，更厚的铜连接线，晶体管数量是第3代的20倍。它的硅中介层扩大到2500mm2，相当于3倍光罩面积，拥有8个HBM2E堆栈的空间，容量高达128GB。并且，台积电以MetalTim形式提供最新高性能处理器散热解决方案，与第一代GelTIM相比，封装热阻降低至0.15倍。

       AI时代下算力需求日益增长，GPU先进封装的重要性凸显。CoWoS协助台积电拿下英伟达、AMD、Google等高性能计算芯片订单。根据DIGITIMES报道，ChatGPT日益普及所刺激的高端AI芯片需求激增，预计将推动对台积电CoWoS封装的需求，微软已与台积电及其生态系统合作伙伴接洽，商讨将CoWoS封装用于其自己的AI芯片。
       英伟达高端GPU都采用CoWoS封装技术，将GPU芯片和HBM2集合在一起。2016年英伟达推出TeslaP100，通过加入采用HBM2的CoWoS第三代技术，将计算性能和数据紧密集成在同一个程序包内，提供的内存性能是NVIDIAMaxwell架构的三倍以上。并且，面向HPC和AI训练，英伟达以Volta、Ampere架构为基础推出了V100、A100高端GPU，均采用台积电CoWoS封装，制程分别为12nm、7nm，分别配备32GBHBM2、40GBHBM2E内存。基于台积电最先进的CoWoS封装，全新Hopper架构的H100GPU制程达到4nm，具有80GB的HBM3内存和超高的3.2TB/s内存带宽。

       AMD的数据中心加速器芯片将重新采用CoWoS封装。AMD在2017年考虑将Vega20的供应商从GlobalFoundries更换为台积电，主要看重其7nm工艺和CoWoS先进封装，Vega20配备32GBHBM2内存，直接对标英伟达V100加速器。根据DIGITIMES报道，AMDMI200原本由日月光集团与旗下矽品提供，应用FO-EB先进封装（扇出嵌入式桥接），新MI系列数据中心加速器芯片将重新采用台积电先进封装CoWoS。基于AldebaranGPU的MI250或采用第五代CoWoS封装技术，制程6nm，实现128GBHBM2E内存等超高性能配置。

       3.HBM：存算一体化下的主流，突破了内存容量与带宽瓶颈
       HBM是“GPU+存储器”的模式，将解决高算力AI背景下芯片的“存算一体”问题。HBM（HighBandwidthMemory，高带宽内存）是一款新型的CPU/GPU内存芯片，将多个DDR芯片堆叠在一起后和GPU封装在一起，实现大容量，高位宽的DDR组合阵列。HBM主要是通过TSV技术进行芯片堆叠，即DRAM芯片上搭上数千个细微孔并通过垂直贯通的电极连接上下芯片；DRAM下面是DRAM逻辑控制单元，对DRAM进行控制；GPU和DRAM通过uBump和Interposer（起互联功能的硅片）连通；Interposer再通过Bump和Substrate(封装基板）连通到BALL；最后BGABALL连接到PCB上。
       虽然多核（例如CPU）/众核（例如GPU）并行加速技术也能提升算力，但在后摩尔时代，存储带宽制约了计算系统的有效带宽，芯片算力增长步履维艰，因此存算一体的芯片应运而生。存算一体是在存储器中嵌入计算能力，以新的运算架构进行二维和三维矩阵乘法/加法运算。存算一体的优势是打破存储墙，消除不必要的数据搬移延迟和功耗，并使用存储单元提升算力，成百上千倍的提高计算效率，降低成本。

       HBM突破了内存容量与带宽瓶颈。凭借TSV方式，HBM使DRAM从传统2D转变为立体3D，比GDDR5节省了94%的表面积，随着半导体行业向小型化发展，HBM能更充分地利用空间，实现集成化。
       同时，HBM大幅提高了容量和数据传输速率，具有更高带宽、更多I/O数量、更低功耗，革命性地提升了DRAM的性能。与GDDR5相比，GDDR5内存每通道位宽32bit，带宽为32GB/s；HBM2的每个堆栈支持最多1024个数据pin，每pin的传输速率可以达到2000Mbit/s，那么总带宽为256GB/s；在2400Mbit/s的每pin传输速率之下，一个HBM2堆栈封装的带宽就是307GB/s。HBM通过提升带宽、扩展内存容量，提高了存储与CPU/GPU之间的数据传输速度，从而减少了内存量小带来的延迟问题。

       HBM3即将问世，最高的数据传输速率提升到8.4Gbps。从HBM性能的历史演进来看，2013年，SK海力士在业界首次成功研发出HBM，HBM1的数据传输速率大概可以达到1Gbps左右；2016年推出的HBM2为每个堆栈包含最多8个内存芯片，同时管脚传输速率翻倍达2Gbps；2018年推出的HBM2E，最高数据传输速率可以达到3.6Gbps，可实现每堆栈461GB/s的内存带宽。2021年，SK海力士和Rambus先后发布最高数据传输速率6.4Gbps和8.4Gbps的HBM3产品，每个堆栈将提供超过819GB/s和1075GB/s的传输速率。SK海力士HBM3显存的样品已通过NVIDIA的性能评估工作，在2022年6月向NVIDIA正式供货；RambusHBM3或将在2023年流片，实际应用于数据中心、AI、HPC等领域。随着HBM3的性能提升，未来市场空间广阔。

       相关标的：长电科技、通富微电、华天科技、甬矽电子、晶方科技。
       以上内容仅供学习交流，不构成投资建议。详情参阅原报告。
       文库-远瞻智库