GPU是Graphics Processing Unit(图形处理器)的简称,它是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上运行绘图运算工作的微处理器。图形处理器是NVIDIA公司(NVIDIA)在1999年8月发表NVIDIA GeForce 256(GeForce 256)绘图处理芯片时首先提出的概念,在此之前,电脑中处理影像输出的显示芯片,通常很少被视为是一个独立的运算单元。而对手冶天科技(ATi)亦提出视觉处理器(Visual Processing Unit)概念。图形处理器使显卡减少对中央处理器(CPU)的依赖,并分担部分原本是由中央处理器所担当的工作,尤其是在进行三维绘图运算时,功效更加明显。图形处理器所采用的核心技术有硬件坐标转换与光源、立体环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等。
图形处理器可单独与专用电路板以及附属组件组成显卡,或单独一片芯片直接内嵌入到主板上,或者内置于主板的北桥芯片中,现在也有内置于CPU上组成SoC的。个人电脑领域中,在2007年,90%以上的新型台式机和笔记本电脑拥有嵌入式绘图芯片,但是在性能上往往低于不少独立显卡。但2009年以后,AMD和英特尔都各自大力发展内置于中央处理器内的高性能集成式图形处理核心,它们的性能在2012年时已经胜于那些低端独立显卡,这使得不少低端的独立显卡逐渐失去市场需求,两大个人电脑图形处理器研发巨头中,AMD以AMD APU产品线取代旗下大部分的低端独立显示核心产品线。而在手持设备领域上,随着一些如平板电脑等设备对图形处理能力的需求越来越高,不少厂商像是高通(Qualcomm)、Imagination、ARM、NVIDIA等,也在这个领域“大显身手”。
GPU不同于传统的CPU,如Intel i5或i7处理器,其内核数量较少,专为通用计算而设计。相反,GPU是一种特殊类型的处理器,具有数百或数千个内核,经过优化,可并行运行大量计算。虽然GPU在游戏中以3D渲染而闻名,但它们对运行分析、深度学习和机器学习算法尤其有用。GPU允许某些计算比传统CPU上运行相同的计算速度快10倍至100倍。
本期的智能内参,我们推荐方正证券的报告《GPU研究框架》,从GPU的底层技术、产业链发展情况和国产GPU的自主之路三方面全面解析GPU及其产业。
本期内参来源:方正证券
原标题:
《GPU研究框架》
作者:陈杭 等
GPU(graphics processing unit)图形处理器,又称显示核心、视觉处理器、显示芯片,是一种在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。GPU通常包括图形显存控制器、压缩单元、BIOS、图形和计算整列、总线接口、电源管理单元、视频管理单元、显示界面。GPU的出现使计算机减少了对CPU的依赖,并解放了部分原本CPU的工作。在3D图形处理时,GPU采用的核心技术有硬件T&L(几何转换和光照处理)、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等,而硬件T&L技术可以说是GPU的标志。
GPU的内部组成部分
GPU核心及PCB板
GPU的微架构(Micro Architecture)是一种给定的指令集和图形函数集合在处理器中执行的方法。图形函数主要用于绘制各种图形所需要的运算。当前和像素、光影处理、3D坐标变换等相关运算由GPU硬件加速来实现。相同的指令集和图形函数集合可以在不同的微架构中执行,但实施的目的和效果可能不同。优秀的微架构对GPU性能和效能的提升发挥着至关重要的作用,GPU体系是GPU微架构和图形API的集合。
以目前最新的英伟达安培微架构为例,GPU微架构的运算部份由流处理器(Stream Processor,SP)、纹理单元(Texture mapping unit, TMU)、张量单元(Tensor Core)、光线追踪单元(RT Cores)、光栅化处理单元(ROPs)组成。这些运算单元中,张量单元,光线追踪单元由NVIDIA在伏特/图灵微架构引入。
除了上述运算单元外,GPU的微架构还包含L0/L1操作缓存、Warp调度器、分配单元(Dispatch Unit)、寄存器堆(register file)、特殊功能单元(Special function unit,SFU)、存取单元、显卡互联单元(NV Link)、PCIe总线接口、L2缓存、二代高位宽显存(HBM2)等接口。
英伟达安培内核概览
英伟达安培内核“SM”单元
GPU的流处理器单元是NVIDIA对其统一架构GPU内通用标量着色器的命名。SP单元是全新的全能渲染单元,是继Pixel Pipelines(像素管线)和Vertex Pipelines(顶点管线)之后新一代的显卡渲染技术指标。SP单元既可以完成VS(Vertex Shader,顶点着色器)运算,也可以完成PS(Pixel Shader,像素着色器)运算,而且可以根据需要组成任意VS/PS比例,从而给开发者更广阔的发挥空间。
流处理器单元首次出现于DirectX 10时代的G80核心的Nvidia GeForce 8800GTX显卡,是显卡发展史上一次重大的革新。之后AMD/ATI的显卡也引入了这一概念,但是流处理器在横向和纵向都不可类比,大量的流处理器是GPU性能强劲的必要非充分条件。
纹理映射单元(TMU)作为GPU的部件,它能够对二进制图像旋转、缩放、扭曲,然后将其作为纹理放置到给定3D模型的任意平面,这个过程称为纹理映射。纹理映射单元不可简单跨平台横向比较,大量的纹理映射单元是GPU性能强劲的必要非充分条件。
光栅化处理单元(ROPs)主要负责游戏中的光线和反射运算,兼顾AA、高分辨率、烟雾、火焰等效果。游戏里的抗锯齿和光影效果越厉害,对ROPs的性能要求就越高,否则可能导致帧数的急剧下降。NVIDIA的ROPs单元是和流处理器进行捆绑的,二者同比例增减。在AMD GPU中,ROPs单元和流处理器单元没有直接捆绑关系。
英伟达安培内核SP、ROPs、TMU拆解
英伟达RTX 3080 GPU-Z参数
消费GPU的实时光线追踪在2018年由英伟达的“图灵”GPU首次引入,光追单元(RT Cores)在此过程中发挥着决定性的作用。图灵GPU的光追单元支持边界体积层次加速,实时阴影、环境光、照明和反射,光追单元和光栅单元可以协同工作,进一步提高帧数和阴影的真实感。
光追单元在英伟达的RTX光线追踪技术、微软DXR API、英伟达Optix API和Vulkan光追API的支持下可以充分发挥性能。拥有68个光追单元的RTX2080Ti在光线处理性能上较无光追单元的GTX1080Ti强10倍。
张量单元(Tensor Core)在2017年由英伟达的“伏特”GPU中被首次引入。张量单元主要用于实时深度学习,服务于人工智能,大型矩阵运算和深度学习超级采样(DLSS),可以带来惊人的游戏和专业图像显示,同时提供基于云系统的快速人工智能。
英伟达RTX2080Ti张量单元算力
英伟达图灵GPU光追单元运作流程
英伟达图灵GPU张量单元提供多精度AI
GPU的API(Application Programming Interface)应用程序接口发挥着连接应用程序和显卡驱动的桥梁作用。不过随着系统优化的深入,API也可以直接统筹管理高级语言、显卡驱动和底层汇编语言。
3D API能够让编程人员所设计的3D软件只需调动其API内的程序,让API自动和硬件的驱动程序沟通,启动3D芯片内强大的3D图形处理功能,从而大幅地提高3D程序的设计效率。同样的,GPU厂家也可以根据API标准来设计GPU芯片,以达到在API调用硬件资源时的最优化,获得更好的性能。3D API可以实现不同厂家的硬件、软件最大范围兼容。如果没有API,那么开发人员必须对不同的硬件进行一对一的编码,这样会带来大量的软件适配问题和编码成本。
目前GPU API可以分为2大阵营和若干其他类。2大阵营分别是微软的DirectX标准和KhronosGroup标准,其他类包括苹果的Metal API、AMD的Mantle(地幔)API、英特尔的One API等。
微软DirectX和Khronos Group API组合对比
DirectX是Direct eXtension的简称,作为一种API,是由微软公司创建的多媒体编程接口。DirectX可以让以Windows为平台的游戏或多媒体程序获得更高的执行效率,加强3D图形和声音效果,并提供设计人员一个共同的硬件驱动标准,让游戏开发者不必为每一品牌的硬件来写不同的驱动程序,也降低用户安装及设置硬件的复杂度。DirectX已被广泛使用于Windows操作系统和Xbox主机的电子游戏开发。
OpenGL是Open Graphics Library的简称,是用于渲染2D、3D矢量图形的跨语言、跨平台的应用程序编程接口(API),相比DirectX更加开放。这个接口由近350个不同的函数调用组成,用来绘制从简单的二维图形到复杂的三维景象。OpenGL常用于CAD、虚拟现实、科学可视化程序和电子游戏开发。
正是由于OpenGL的开放,所以它可以被运行在Windows、MacOS、Linux、安卓、iOS等多个操作系统上,学习门槛也比DirectX更低。但是,效率低是OpenGL的主要缺点。
DirectX和OpenGL特点对比
Metal是Apple在2014年创建的接近底层的,低开销的硬件加速3D图形和计算着色器API。Metal在iOS 8中首次亮相。Metal在一个API中结合了类似于OpenGL和OpenCL的功能。它旨在通过为iOS,iPadOS,macOS和tvOS上的应用程序提供对GPU硬件的底层访问来提高性能。相较于OpenGL ES,Metal减少了10倍的代码拥挤,提供了更好的解决方案,并将会在苹果设备中取代OpenGL。Metal也支持英特尔HD和IRIS系列GPU、AMD的GCN和RDNA GPU、NVIDIA GPU。Metal也是可以使用Swift或Objective-C编程语言调用的面向对象的API。GPU的全部操作是通过Metal着色语言控制的。
2017年,苹果推出了Metal的升级版Metal2,兼容前代Metal硬件,支持iOS11,MacOS和tvOS11。Metal2可以在Xcode中更有效地进行配置和调试,加快机器学习速度,降低CPU工作量,在MacOS上支持VR,充分发挥A11 GPU的特性。
Vulkan是一种低开销,跨平台的3D图像和计算API。Vulkan面向跨所有平台的高性能实时3D图形应用程序,如视频游戏和交互式媒体。与OpenGL,Direct3D 11和Metal相比,Vulkan旨在提供更高的性能和更平衡的CPU/GPU用法。除了较低的CPU使用外,Vulkan还旨在使开发人员更好地在多核CPU中分配工作。
Vulkan源自并基于AMD的Mantle API组件,最初的版本被称为OpenGL的下一代。最新的Vulkan1.2发布于2020年1月15日,该版本整合了23个额外经常被使用的Vulkan拓展。
Metal与OpenGL性能对比
OpenGL和Vulkan对比
软件生态方面,GPU无法单独工作,必须由CPU进行控制调用才能工作,而CPU在处理大量类型一致的数据时,则可调用GPU进行并行计算。所以,GPU的生态和CPU的生态是高度相关的。
近年来,在摩尔定律演进的放缓和GPU在通用计算领域的高速发展的此消彼长之下,通用图形处理器(GPGPU)逐渐“反客为主”,利用GPU来计算原本由CPU处理的通用计算任务。
目前,各个GPU厂商的GPGPU的实现方法不尽相同,如NVIDIA使用的CUDA(compute unified device architecture)技术、原ATI的ATI Stream技术、Open CL联盟、微软的DirectCompute技术。这些技术可以让GPU在媒体编码加速、视频补帧与画面优化、人工智能与深度学习、科研领域、超级计算机等方面发挥异构加速的优势。以上4种技术中,只有OpenCL支持跨平台和开放标注的特性,还可以使用专门的可编程电路来加速计算,业界支持非常广泛。
DirectX和OpenGL生态对比
OpenCL联盟生态
GPU根据接入方式可以划分为独立GPU和集成GPU。独立GPU一般封装在独立的显卡电路板上,拥有独立显存,而集成GPU常和CPU共用一个Die,共享系统内存。GPU根据接入方式可以划分为独立GPU和集成GPU。独立GPU一般封装在独立的显卡电路板上,拥有独立显存,而集成GPU常和CPU共用一个Die,共享系统内存。
GPU的主要分类
独立GPU
集成GPU Die
GPU显存是用来存储显卡芯片处理过或者即将提取的渲染数据,是GPU正常运作不可或缺的核心部件之一。GPU的显存可以分为独立显存和集成显存两种。目前,独立显存主要采用GDDR3、GDDR5、GDDR5X、GDDR6,而集成显存主要采用DDR3、DDR4。服务器GPU偏好使用Chiplet形式的HBM显存,最大化吞吐量。
集成显存受制于64位操作系统的限制,即便组成2通道甚至4通道,与独立显存的带宽仍有相当差距。通常这也造成了独立GPU的性能强于集成GPU。
显存的主要分类
独立显存的工作方式
独立显存的工作方式
集成显卡是指一般不带显存,而是使用系统的一部分主内存作为显存的显卡。集成显卡可以被整合进主板作为北桥芯片的一部分,也可以和CPU集成在同一个Die中。集成显卡的显存一般根据系统软件和应用软件的需求自动调整。如果显卡运行需要占用大量内存空间,那么整个系统运行会受限,此外系统内存的频率通常比独立显卡的显存低很多,因此集成显卡的性能比独立显卡要逊色一些。
独立显卡是将显示芯片及相关器件制作成一个独立于电脑主板的板卡,成为专业的图像处理硬件设备。独立显卡因为具备高位宽、高频独立显存和更多的处理单元,性能远比集成显卡优越,不仅可用于一般性的工作,还具有完善的2D效果和很强的3D水平,因此常应用于高性能台式机和笔记本电脑,主要的接口为PCIe。
如今,独立显卡与集成显卡已经不是2个完全割裂,各自为营的图像处理单元了。二者在微软DX12的支持下也可以实现独核显交火,同时AMD和NVIDIA的显卡也可实现混合交火。
集成显卡和独立显卡对比
GPU对比CPU:从芯片设计思路看,CPU是以低延迟为导向的计算单元,通常由专为串行处理而优化的几个核心组成,而GPU是以吞吐量为导向的计算单元,由数以千计的更小、更高效的核心组成,专为并行多任务设计。
CPU和GPU设计思路的不同导致微架构的不同。CPU的缓存大于GPU,但在线程数,寄存器数和SIMD(单指令多数据流)方面GPU远强于CPU。
微架构的不同最终导致CPU中大部分的晶体管用于构建控制电路和缓存,只有少部分的晶体管完成实际的运算工作,功能模块很多,擅长分支预测等复杂操作。GPU的流处理器和显存控制器占据了绝大部分晶体管,而控制器相对简单,擅长对大量数据进行简单操作,拥有远胜于CPU的强大浮点计算能力。
GPU和CPU的核心设计思路对比
GPU和CPU的核心对比
后摩尔时代,随着GPU的可编程性不断增强,GPU的应用能力已经远远超出了图形渲染,部份GPU被用于图形渲染以外领域的计算成为GPGPU。与此同时,CPU为了追求通用性,只有少部分晶体管被用于完成运算,而大部分晶体管被用于构建控制电路和高速缓存。但是由于GPU对CPU的依附性以及GPU相较CPU更高的开发难度,所以GPU不可能完全取代CPU。我们认为未来计算架构将是GPU+CPU的异构运算体系。
在GPU+CPU的异构运算中,GPU和CPU之间可以无缝地共享数据,而无需内存拷贝和缓存刷新,因为任务以极低的开销被调度到合适的处理器上。CPU凭借多个专为串行处理而优化的核心运行程序的串行部份,而GPU使用数以千计的小核心运行程序的并行部分,充分发挥协同效应和比较优势。
异构运算除了需要相关的CPU和GPU等硬件支持,还需要能将它们有效组织的软件编程。OpenCL是(OpenComputing Language)的简称,它是第一个为异构系统的通用并行编程而产生的统一的、免费的标准。OpenCL支持由多核的CPU、GPU、Cell架构以及信号处理器(DSP)等其他并行设备组成的异构系统。
OpenCL异构运算构成
异构运算下的GPU工作流程
GPU与ASIC和FPGA的对比:数据、算力和算法是AI三大要素,CPU配合加速芯片的模式成为典型的AI部署方案,CPU提供算力,加速芯片提升算力并助推算法的产生。常见的AI加速芯片包括GPU、FPGA、ASIC三类。
GPU用于大量重复计算,由数以千计的更小、更高效的核心组成大规模并行计算架构,配备GPU的服务器可取代数百台通用CPU服务器来处理HPC和AI业务。
FPGA是一种半定制芯片,灵活性强集成度高,但运算量小,量产成本高,适用于算法更新频繁或市场规模小的专用领域。
ASIC专用性强,市场需求量大的专用领域,但开发周期较长且难度极高。
在AI训练阶段需要大量数据运算,GPU预计占64%左右市场份额,FPGA和ASIC分别为22%和14%。推理阶段无需大量数据运算,GPU将占据42%左右市场,FPGA和ASIC分别为34%和24%。
不同应用场景AI芯片性能需求和具体指标
GPU、FPGA、ASIC AI芯片对比
在PC诞生之初,并不存在GPU的概念,所有的图形和多媒体运算都由CPU负责。但是由于X86 CPU的暂存器数量有限,适合串行计算而不适合并行计算,虽然以英特尔为代表的厂商多次推出SSE等多媒体拓展指令集试图弥补CPU的缺陷,但是仅仅在指令集方面的改进不能起到根本效果,所以诞生了图形加速器作为CPU的辅助运算单元。
GPU的发展史概括说来就是NVIDIA、AMD(ATI)的发展史,在此过程中曾经的GPU巨头Imagination、3dfx、东芝等纷纷被后辈超越。如今独立显卡领域主要由英伟达和AMD控制,而集成显卡领域由英特尔和AMD控制。
GPU的发展史
英伟达的GPU架构自2008年以来几乎一直保持着每2年一次大更新的节奏,带来更多更新的运算单元和更好的API适配性。在每次的大换代之间,不乏有一次的小升级,如采用开普勒二代微架构的GK110核心相较于采用初代开普勒微架构的GK104核心,升级了显卡智能动态超频技术,CUDA运算能力提升至3.5代,极致流式多处理器(SMX)的浮点运算单元提升8倍,加入了Hyper-Q技术提高GPU的利用率并削减了闲置,更新了网格管理单元(Grid Management Unit),为动态并行技术提供了灵活性。
英伟达GPU微架构的持续更新,使英伟达GPU的能效提升了数十倍,占领了独立显卡技术的制高点。
2008-2020英伟达GPU微架构进化
图形API在GPU的运算过程中发挥着连接高级语言、显卡驱动乃至底层汇编语言的作用,充当GPU运行和开发的“桥梁”和“翻译官”。微软DirectX标准可以划分为显示部份、声音部份、输入部分和网络部分,其中与GPU具有最直接关系的是显示部分。显示部份可分为DirectDraw和Direct3D等标准,前者主要负责2D图像加速,后者主要负责3D效果显示。
从1995年发布的初代DirectX 1.0开始微软的DirectX已经更新到了DirectX 12。在此过程中,DirectX不断完善对各类GPU的兼容,增加开发人员的权限,提高GPU的显示质量和运行帧数。
DirectX一般和Windows操作系统同步更新,如Windows 7推出了DX11、Windows 10推出了DX12。
1998-2014微软DirectX进化
GPU和CPU都是以先进制程为导向的数字芯片。先进制程可以在控制发热和电能消耗的同时,在有限的Die中放入尽可能多的晶体管,提高GPU的性能和能效。
NVIDIA的GPU从2008年GT200系列的65纳米制程历经12年逐步升级到了RTX3000系列的7/8纳米制程,在整个过程中,晶体管数量提升了20多倍,逐步确立了在独立GPU的市场龙头地位。
同时在整个过程中,NVIDIA一直坚持不采用IDM的模式,而是让台积电负责GPU的制造,自生专注于芯片设计,充分发挥比较优势。
2008-2020英伟达GPU主要制程和晶体管数进化
根据前12年的GPU发展轨迹来看,GPU微架构的升级趋势可以简要地概括为”更多”、”更专”、”更智能”。“更多”是指晶体管数量和运算单元的增加,其中包括流处理器单元、纹理单元、光栅单元等数量上升。“更专”是指除了常规的计算单元,GPU还会增加新的运算单元。例如,英伟达的图灵架构相较于帕斯卡架构新增加了光追单元和张量单元,分别处理实时光线追踪和人工智能运算。“更智能”是指GPU的AI运算能力上升。如第三代的张量单元相较于上代在吞吐量上提升了1倍。
英伟达GTX1080对比RTX2080
英伟达伏特微架构对比安培微架构AI加速性能
英伟达安培架构提升
综合分析微软的DirectX12、苹果的Metal2、Khronos Group的Vulkan API分别相较于前代DirectX11、Metal、OpenGL的升级,我们认为GPU API的升级趋势是提高GPU的运行效率、增加高级语言和显卡驱动之间的连接、优化视觉特效等。其中,提供更底层的支持:统筹高级语言、显卡驱动和底层语言是几乎所有API升级的主要方向。
不过提供更底层的支持只是更高的帧数或更好的画质的必要非充分条件。在整个软件的开发过程中,软件开发商需要比驱动程序和系统层更好地调度硬件资源,才能充分发挥底层API的效果。
在显示质量方面,DirectX 12 Ultimate采用当下最新的图形硬件技术,支持光线追踪、网格着色器和可变速率着色,PC和Xbox共用同一个API,堪称次世代游戏的全新黄金标准。
非底层DirectX 11对比底层DirectX 12
DirectX 12 Ultimate新特性
GPU制造升级趋势:以先进制程为导向。GPU性能的三大决定因素为主频、微架构、API。这些因素中主频通常是由GPU的制程决定的。制程在过去通常表示晶体管或栅极长度等特征尺寸,不过出于营销的需要,现在的制程已经偏离了本意,因此单纯比较纳米数没有意义。按英特尔的观点,每平方毫米内的晶体管数(百万)更能衡量制程。据此,台积电和三星的7nm工艺更接近英特尔的10nm工艺。
先进的制程可以降低每一个晶体管的成本,提升晶体管密度,在GPU Die体积不变下实现更高的性能;先进制程可以提升处理器的效能,在性能不变的情况下,减少发热或在发热不变的情况下,通过提升主频来拉高性能。
先进制程的主要目的是降低平面结构带来的漏电率问题,提升方案可以通过改变工艺,如采用FinFET(鳍式场效应晶体管)或GAA(环绕式栅极);或采用特殊材料,如FD-SOI(基于SOI的超薄绝缘层上硅体技术)。
先进制程工艺之FinFET
英特尔10nm先进制程带来的性能和效能提升
GPU制造升级趋势:Chiplet化。高位宽内存(HBM)是小芯片(Chiplet)在GPU中的常见应用。HBM是一种高速计算机存储器3D堆栈SDRAM接口。首款HBM于2013年推出,第二代HBM2已于2016年被JEDEC接受。目前,HBM主要应用在高端独立显卡和服务器显卡。
HBM通过3D堆叠4个DRAM Die和1片逻辑Die组成一个Chiplet,其中每片DRAM具有2个128位通道,通过TSV(硅通孔)相连。所以,一片Chiplet总共8个128位通道,总位宽1024比特。每片Chiplet又与GPU封装在同一中介层(Interposer)连接GPU芯片。相比之下,GDDR5内存的总线宽度为32位,带有512位内存接口的显卡也只有16个通道,而且采用传统的FBGA封装。HBM与GDDR5相比,每GB的表面积减少94%,每GB/S带宽的能效提升2倍多。
HBM支持最多每个Chiplet 4GB的存储,HBM2在HBM的基础上将每片Chiplet的最大容量提升至了8GB,显存主频提升1倍,同时总位宽保持不变。
HBM的GPU应用
GDDR5对比HBM
HBM先进封装结构
GPU制造可分为IDM和Fab+Fabless。IDM集芯片设计、芯片制造、芯片封装和测试等多个产业链环节于一身。英特尔为IDM的代表。
Fabless只负责芯片的电路设计与销售,将生产、测试、封装等环节外包。苹果和AMD为Fabless的代表。Foundry只负责制造,不负责芯片设计,可以同时为多家设计公司服务,但受制于公司间的竞争关系。台积电为Foundry的代表。目前英特尔GPU落后的主要原因是GPU制程的落后,根本原因是英特尔受困于IDM运作模式。随着28纳米以下先进制程的发展,芯片的制造成本和设计成本成指数级上升。同时,一条12英寸晶圆的生产线从建设到生产的周期约2年,投资至少30-50亿美元,资本支出占比80%,整体风险非常大。英特尔以有限的资源不支持它持续的设计和生产的的两线作战。
Fab+Fabless的模式通过充分发挥比较优势,分散了GPU设计和制造的风险,符合半导体分工的大趋势。
IDM与Fab+Fabless对比
芯片设计费用趋势(亿美元)
过去20多年里,GPU的基本需求源于视频加速,2D/3D游戏。随后GPU运用自身在并行处理和通用计算的优势,逐步开拓服务器、汽车、矿机、人工智能、边缘计算等领域的衍生需求。虽然GPU无法离开CPU独立运作,但是在当前“云化”加速的时代,离开了GPU的CPU也无法胜任庞大的计算需求。所以GPU和CPU组成了异构运算体系,从底层经由系统软件和驱动层支持着上层的各种应用。GPU已经成为了专用计算时代的刚需。
现代云计算中GPU加速的刚需
2020年全球GPU市场价值预计为254.1亿美元,预计2027年将达到1853.1亿美元,年平均增速为32.82%。按GPU的类型进行划分,市场可以细分为独立、集成和混合。2019年,集成GPU占GPU市场的主导地位,但是由于混合GPU同时拥有集成和专用GPU的能力,所以混合细分市场预计实现最高复合增长率。
按GPU的设备进行划分,市场可细分为计算机、平板电脑、智能手机、游戏机、电视、其他。就收入而言,智能手机细分市场占比最大,在未来也将保持这一趋势。但是,由于医疗等其他设备中对小型GPU的需求不断增加,预计未来的年复合增长率将最高。
按GPU的行业进行划分,市场可细分为电子、IT与电信、国防与情报、媒体与娱乐、汽车、其他。由于GPU在设计和工程应用中的广泛使用,预计汽车细分行业的年复合增长率最高。
按GPU的地理区域划分,市场可细分为北美、欧洲、亚太和其他地区。亚太地区在2019年主导了全球GPU市场,预计在整个预测期内将保持主导地位。
全球GPU市场规模预测
2015-2025全球前三GPU供应商营收总和
全球GPU已经进入了寡头垄断的格局。在传统GPU市场中,排名前三的Nvidia、AMD、Intel的营收几乎可以代表整个GPU行业收入。英伟达的收入占56%、AMD占26%、英特尔占18%。
在手机和平板GPU方面,联发科、海思麒麟、三星Exynos的GPU设计主要基于公版ARM MaliGPU或PowerVR微架构。高通骁龙Adreno和苹果A系列采用自研GPU微架构。2019Q2,ARM、高通、苹果、Imagination科技、英特尔是全球智能手机和平板的前五大GPU供应商。同期ARM Mali在以上五大GPU供应商中占43%的市场份额,高通Adreno占36%的份额,苹果占12%的份额。
2019前三家GPU供应商收入份额对比
2019 Q2手机和平板GPU供应商份额
英伟达公司成立于1993年,于1999年率先推出“GPU”的图形解决方案。公司主要设计游戏和专业市场的GPU,移动计算和自动驾驶汽车的SoC,是GPU计算领域公认的全球领导者。它主要的GPU产线“GeForce”和AMD的“Radeon”形成直接竞争。同时,英伟达为了拓展移动游戏平台,推出了掌机Shield、Shield平板、Shield电视盒子和云游戏服务GeForce Now。目前,公司已经完成了由芯片供应商向计算平台的转型。
英伟达的四大增长驱动力分别是游戏业务、数据中心业务、专业视觉业务、自动驾驶业务,各业务的代表性GPU方案分别是GeForce,DGX、EGX、HGX,Quadro、AGX。
英伟达2021财年营收167亿美元,其中游戏、数据中心、专业视觉、自动驾驶业务在2020财年分别贡献了营收的47%、40%、6%、3%。公司继2014年毛利率突破50%后,于2021财年毛利率突破60%。
英伟达2021财年的业务构成
英伟达的主要增长驱动力
英伟达的游戏业务由GeForce和Shield组成。其中Shield面向移动端和云,GeForce面向PC。游戏笔记本和云游戏是公司拓展市场的2大方向。GeForce是英伟达游戏业务的核心。GeForce是全球最大的游戏平台,拥有超过2亿名玩家。在PC游戏领域,英伟达的营收是其他主要GPU供应商的三倍多。GeForce已经来到了RTX30系列,采用第二代NVIDIA RTX架构-NVIDIA安培架构,搭载全新的RT Core、Tensor Core及流式多处理器,拥有RTX游戏、DLSS、G-SYNC、DirectX12等先进技术,可带来逼真的光线追踪效果和先进的AI性能。
除了PC游戏市场,英伟达也向合作伙伴–任天堂Switch主机提供定制版Tegra SoC。作为合作的一部分,Shield主机可以畅享任天堂的游戏,GameStream串流游戏和热门游戏,实现4KHDR画质,支持百度DuerOS对话式人工智能。
英伟达的数据中心业务的技术根源是CUDA(统一计算设备架构)。CUDA首次推出于2006年的G80核心,隶属于通用并行计算架构,创造了GPGPU。在“安培”时代,CUDA核心已经进化到了8.0,被运用在几乎所有的英伟达产品线。
CUDA兼容DirectCompute、OpenCL等计算接口。与Direct3D、OpenGL等高级图形API相比,CUDA可以使开发者更容易使用GPU资源。当前,CUDA在广义上既代表GPU的硬件平台又代表GPU的软件平台。
在硬件平台方面,CUDA包含了CUDA指令集以及GPU内部的并行计算引擎。GPU平台的矢量运算如INT、FP32、FP64都由CUDA承担。开发人员可以使用C语言和Fortran语言为CUDA编写程序。
在软件平台方面,基于CUDA的CUDA-X加速库、工具和科技集合,向上对接不同的行业应用需求。在英伟达的软件栈体系中,分为CUDA-X AI和CUDA-X HPC,分别面向AI和HPC两大领域,可以在人工智能和高性能计算方面提供远超其他竞品的性能。CUDA-X的开发者已经超过100万。
英伟达CUDA-X HPC
英伟达CUDA-X AI
英伟达数据中心的产品包括适用于AI的DGX系统,适用于边缘计算的EGX平台,适用于超算的HGX平台、适用于数据处理的DPU、简化深度学习,机器学习,高性能计算的NGC目录。相关的GPU加速器有采用安培架构的A100、A40,采用图灵架构的T4、RTX6000、RTX8000,采用伏特架构的V100。
过去5个财年中,英伟达数据中心的营收从8.3亿美元上升至66.96亿美元,年复合增速69%。同时,公司的注册开发者超过200万,与主要的云供应商如谷歌、腾讯、阿里建立了供应关系,世界500强超算中的份额从6%上升至70%。
英伟达主要云合作伙伴
英伟达数据中心营收趋势
英伟达在超算500强中份额
英伟达专业视觉业务主要由Quadro产品线组成。Quadro在GeForce的基础上加强了NVLink、GPU的通用计算性能和显存容量,拥有Iray、Omniverse平台、材质定义语言等特有技术。Quadro被广泛应用在台式工作站、笔记本电脑、EGX服务器、虚拟工作空间、云端、定制化方案中。英伟达Quadro方案有超过50种应用、4000万设计用户和2000万企业用户,并正在不断解锁新市场。
在过去的5个财年,英伟达专业视觉的营收从8.35亿美元上升至10.53亿美元,年复合增速6%。
英伟达专业视觉GPU加速合作伙伴
英伟达专业视觉营收趋势
英伟达专业视觉方案
英伟达的汽车产品包括相关驾驶软件、驾驶基础设计、AGX平台,提供训练、模拟、智能驾驶舱体验、高清地图和定位等解决方案。在绝对性能方面,搭载4颗Drive AGX Origin的蔚来ADAM超算平台支持L4以上自动驾驶,超过7个特斯拉FSD算力总和。
不同于特斯拉自动驾驶追求软硬件的高度契合,英伟达的方案更追求开放性。公司在汽车领域的合作伙伴以软件服务和轿车居多,分别达到了76家和42家。同时,公司与大众、丰田、本田、奔驰、宝马、奥迪、沃尔沃、马牌、滴滴、采埃孚、蔚来、小鹏、图森等世界知名公司建立了强力的生态。
在过去的5个财年,英伟达自动驾驶的营收从4.87亿美元上升至5.36亿美元,年复合增速3%。
英伟达自动驾驶营收趋势
英伟达自动驾驶合作伙伴分布数
2020年9月13日,NVIDIA宣布以400亿美元收购ARM。本次收购意义可以细分为以下5个方面:
1. 创造AI时代的世界级计算公司,将英伟达领先的AI计算平台和ARM庞大的CPU生态相结合;
2. 通过英伟达在移动端和PC等大型终端市场的科技拓展ARM的IP授权组合;
3. 加速ARM的服务器CPU、数据中心、边缘AI、IoT发展;
4. 将英伟达计算平台的开发者由200万提升至超过1500万;
5. 并购可以立即增加英伟达的非GAAP毛利率和非GAAP每股收益;
合并后的英伟达将把计算从云、智能手机、PC、自动驾驶车和机器人技术推进到了边缘物联网,将AI计算拓展到全球,在拓展大规模、高增长市场的同时加速创新。
英伟达从云到边缘
AMD是全球唯一可以同时提供高性能GPU和CPU的企业。AMD的显卡来源于2006年并购的ATI科技。在这之后的4年中,AMD继续使用ATI作为显卡品牌。直到2010年,AMD才抛弃原ATI的品牌命名方式。
目前,AMD同时提供独立GPU和集成GPU,其集成GPU主要运用在Ryzen APU、嵌入式、半定制平台中,独立GPU分为Radeon和Instinct系列,主要用于游戏、专业视觉、服务器等应用。
过去六年,AMD的计算和图形收入的营收由18.05亿美元上升至64.32亿美元,年复合增速29%。
未来五年,AMD计划成为高性能计算的领导者,提供颠覆性的CPU和GPU方案。
AMD计算和图形部门营收
AMD GPU的聚焦领域
AMD的集成GPU主要被运用在台式机和笔记本的APU产品中,和CPU组成异构运算单元。台式和笔记本APU的GPU部份共用微架构和核心技术,二者GPU的主要差异在于TDP和处理单元的数量,台式强于笔记本。
“Renior”APU的GPU继续使用Vega微架构,但受益于7纳米制程,每个处理单元效能显著提升。
7纳米Vega的提升包括:数据网络翻倍、优化低功耗状态转换、25%主频提升、77%存储位宽提升。这些提升带来了在保持15W功耗不变的前提下,每个计算单元59%的性能提升、1.79TFLOPS的32位浮点峰值吞吐。
在3DMark Time Spy(DX12)的跑分中,7纳米的Ryzen 4800U的GPU表现超过10纳米i7-1065G7,是14纳米i7-10710U的2倍以上。
AMD “RENIOR”APU
AMD “RENIOR”APU内核解析
AMD “RENIOR”APU跑分对比
AMD的Radeon系列游戏独立GPU按微架构推出时间依次递减可以分为RX6000系列、RX5000系列、Radeon 7、 RX500系列。以上四大系列中,除RX500系列外均采用台积电7纳米制程。
2020年11月推出的RDNA2微架构相较于前代RDNA绝对性能最高提升一倍,能效提高54%,支持DirectX12 Ultimate,硬件光线追踪和可变速率着色器等先进技术。搭载16GBGDDR6显存和128MB InfinityCache高速缓存的RX 6900XT的游戏性能接近英伟达的RTX 3090。
为了发挥AMD CPU和GPU的协同效应,Radeon拥有AMD SmartAccess Memory技术,锐龙CPU和显卡之间能实现更出色的通信。RX6800系列显卡在部分游戏中4K画质性能额外提升最高可达7%。
2022年前,AMD将基于更先进的制程打造RDNA3微架构,进一步强化光追等计算表现。
除了传统的BGA显存封装,AMD还积极运用HBM系列显存。在Radeon7中,16GB的HBM2显存拥有1TB/S的带宽,超过同期Titan RTX 50%。
AMD独立游戏GPU路线图
AMD独立游戏GPU产品线
AMD的数据中心GPU业务由Radeon Instinct加速器系列、以客户为核心的数据中心解决方案和ROCm组成。AMD的主要合作伙伴包括戴尔、惠普等OEM,同时AMD也向微软AZURE和亚马逊网络服务提供视觉云解决方案。
ROCm是全球首个针对加速式计算且不限定编程语言的超大规模开源平台,遵循UNIX的选择哲学、极简主义以及针对GPU计算的模块化软件开发。
ROCm适合大规模计算,支持多路GPU,有丰富的系统运行库,包括框架、库、编程模型、互联和Linux Kernel上游支持,提供各种重要功能来支持大规模应用、编译器和语言运行库的开发。
AMD正与美国能源部、橡树岭国家实验室和Cray公司合作,使用EPYC(霄龙)CPU、Radeon Instinct GPU和ROCm打造超过150亿亿次FLOPS的全球最快超算平台。
AMD ROCm开源软件生态
AMD数据中心GPU产品线
Radeon Instinct MI 100加速器采用专注计算的CDNA微架构,在计算和连接方面实现了巨大飞跃,与AMD上一代加速器相比,高性能计算工作负载(FP32矩阵)性能提升近3.5倍,而人工智能工作负载(FP16)性能提升近7倍。InstinctMI 100在FP32和FP64的峰值TFLOPS中超越了同期英伟达安培A100,同时功耗比后者低100瓦。
为了满足多路GPU的互联通讯需求,AMD研发了InfinityFabric技术。Infinity Fabric拥有先进的平台连接性和可拓展性,最多支持4路GPU互联。P2P带宽是PCIe 4.0的2倍,四GPU集群的P2P带宽最高可达552GB/s。
未来,AMD将基于更先进的制程打造CDNA2微架构,进入百亿亿级时代。
Instinct MI 100与安培A100对比
AMD数据中心GPU路线图
AMD Infinity Fabric互联
AMD的其他独立GPU主要包括嵌入式、半定制化、Radeon Pro工作站显卡。半定制化独立显卡主要倍运用在索尼、微软的本世代和次世代主机中。如今,AMD的技术存在于2.2亿个家庭畅享游戏和视频娱乐时所用设备的核心。
嵌入式GPU的特点包括卓越的图形性能、多屏显示、外形紧凑、高能效、长期供货。嵌入式GPU分为超高性能嵌入式GPU、高性能嵌入式GPU、高能效嵌入式GPU,它们主要使用14纳米的GCN 1.4北极星微架构,TDP覆盖20W-135W范围。
Radeon Pro系列显卡被广泛应用于建筑工程、设计制造、媒体娱乐等领域,拥有AMD远程工作站、AMD Eyefinity多屏显示技术、AMD Radeon ProRender等技术。Radeon Pro系列采用Vega微架构,7或14纳米制程,直接竞争对手是英伟达的Quadro系列。Radeon Pro移动和台式工作站的合作伙伴包括苹果、戴尔、惠普等。
Radeon™ Pro VII GPU规格
英特尔是全球最大的PC GPU供应商,也是PC和服务器显卡唯一的IDM厂商。英特尔的GPU最早可以追溯到1998年的i740,但是由于羸弱的性能和缓慢的更新速度,一直没有非常大的起色。进入Core i时代后,英特尔通过将核芯显卡和CPU进行捆绑销售,利用CPU的庞大市场份额,确立了公司在集成GPU领域的寡头垄断地位,在此过程中AMD的APU一直是酷睿的直接竞争对手。
2020年,英特尔推出了第12代GPGPU,采用全新的Xe微架构和10纳米Super Fin制程。相较于第11代核显,Xe-LP在保持电压不变的前提下,大幅提升主频,能效显著提高。搭载Xe-LP的i7 1185G7在GPU性能方面已经超过同期AMD的Vega核显和英伟达的MX系列独显。
Xe系列可以细分为,集成/低功耗的Xe-LP、娱乐/游戏的Xe-HPG、数据中心/高性能的Xe-HP、高性能计算的Xe-HPC。
目前,Xe-LP的集成版本已经被第11代酷睿所采用。Xe-LP的移动独立GPU版本DG1和服务器独立GPU版本SG1也已发布。独显版在核显版的基础上进一步提升主频,并加入了128位4GB LPDDR4X-4266独立显存,单精度浮点算力提升15%。
英特尔Xe纵向对比第11代核显
英特尔Xe产品线
英特尔的集成GPU在形式上表现为核芯显卡。核芯显卡使用系统DRAM作为非独立显存,通过处理器内部的环状总线与CPU连接,负责处理游戏、视频娱乐等图像负载。
英特尔Xe核显借助10纳米SuperFin的优势,将处理单元最高提升至96个,相较于Icelake的64个提升了50%,并且将连接CPU和GPU的总线带宽提升一倍,独立最终缓存(LLC)提高50%,支持最高86GB/s的存储带宽。以上这些提升使i7-1185G7的3DMark跑分较前代i7-1065G7提升接近一倍,超过AMD的R74800U和同期英伟达的MX350。
Xe核显的显示引擎和媒体引擎也都得到加强。接口方面,内部支持双eDP,外部支持DP1.4、HDMI2.0、雷电4、USB4 Type-C。画质方面,支持8K、HDR10、12比特BT2020色域、360赫兹刷新率等。
英特尔Xe核心显卡和CPU经由自家One API驱动中间层框架和上层应用。英特尔One API解决了编码模型在不同微架构间的壁垒,最大化跨平台表现和最小化开发成本。
英特尔Tiger Lake 实物图和Die
英特尔Tiger Lake Xe核显3DMark性能对比
英特尔独立GPU分为锐炬Xe MAX和服务器GPU,均隶属于Xe LP系列,微架构与核显Xe相同,采用标准封装和10纳米SuperFin制程。
目前,锐炬Xe MAX是第一款基于英特尔 Xe 架构的面向轻薄型笔记本电脑的GPU。锐炬Xe MAX在Xe集成GPU的基础上增加了4GBLPDDR4X-4266的独立显存,TDP 25W,峰值主频1650MHz,单精度浮点性能2.46TFLOPs。锐炬Xe MAX可以和11代酷睿处理器、锐炬Xe GPU同时工作。借助英特尔Deep Link技术,获得具有强大性能和经过功耗优化的集成系统,以改进创造力和游戏体验。
目前,英特尔服务器GPU在Xe核显的基础上,TDP提升到23W,增加了8GB LPDDR4的独立显存,支持高密度、低延迟的安卓云游戏和高密度媒体转码/编码,以实现实时的OTT视频直播。同时,英特尔服务器GPU支持2颗、4颗独立GPU的聚合,成倍提高性能。
未来,英特尔还将推出面向游戏和高性能桌面的Xe HPG产品线,增加了光线追踪等硬件支持,采用传统封装,外包生产。英特尔服务器GPU将使用Xe HPC、Xe HP微架构,采用2.5D和3D先进封装,10纳米SuperFin及更先进自家或外包工艺。
英特尔Xe服务器GPU参数
英特尔Xe产品、封装、制程
英特尔锐炬Xe MAX
ARM是全球最大的半导体IP提供商。全世界超过95%的智能手机和平板电脑都采用ARM架构。2019Q2,全球近43%的手机和平板GPU由Mali驱动。2020第四季度,ARM半导体合作伙伴基于ARM技术的芯片出货量达到67亿颗,再创历史新高,超过其他所有流行的CPU指令集架构—X86、ARC、Power、MIPS的总和。
国产SoC中,有95%是基于ARM处理器技术,ARM中国授权客户超过150家,基于ARM架构的国产芯片出货量已经超过184亿。
ARM的Mali GPU按性能可以分为3大类,分别是高性能、主流、高能效。
ARM IP组合和SoC设计
ARM Mali GPU路线图
Arm Mali-G78 GPU是用于高端设备的第二代基于Valhall架构的GPU。Mali-G78是性能最高的ArmGPU,可支持复杂的应用,例如适用于Vulkan和OpenCL等所有最新API的游戏图形和机器学习(ML)。
Mali-G78与上一代设备相比,GPU性能提高了25%,并增强了设备上的ML功能,从而有助于将高度复杂的游戏带入移动设备。Mali-G78最多支持24个内核,并包含异步顶级功能,可确保性能有效地分布在各个内核上,从而使图形运行更加流畅。全新执行引擎中的新型融合乘加(FMA)单元可进一步降低30%的单元能耗。
在GFXBench Aztec Ruin的跑分中,使用台积电5纳米工艺,搭载24个Mali-G78内核的麒麟9000 SoCGPU的帧数强于骁龙865的Adreno 650,但仍落后于苹果A14。
ARM Mali-G78
麒麟9000系列的ARM Mali-G78应用