英伟达的“绝世武功”

2023-07-15 08:01:07 34

来源/21tech(News-21)

作者/倪雨晴

编辑/张伟贤

图源/图虫

谁将是AI世界的“神” ? 

当大家都在猜测英伟达还有多少增长潜力时,美东时间7月13日,英伟达股价再度大涨4.73%,市值达到11356亿美元(约合人民币81071亿元),再创历史新高。

“现在公司大部分资源都集中在大模型建设,最近我们采购的一批英伟达GPU马上到货,内部早已分配完毕。”近日,一家AI企业员工向21世纪经济报道记者描绘了芯片供应的紧张之势。

眼下,算力产业链正面临新一轮“缺芯”。产业链上的企业们要登上超高算力的舞台、要在AI江湖中立足,英伟达GPU是稀缺的入场券。

当A100和H100因为美国禁令而停供后,英伟达重新定制的800系列在国内被厂商疯抢,100系列的库存GPU价格也一路走高。有产业链人士告诉记者:“今年A100的价格涨了一倍左右,而一台带NVLink的八卡服务器,去年还不到100万元,现在可能需要170万元。”

更令人焦虑的是,价格高涨之下芯片仍难求,另一位产业链人士向记者表示,英伟达今年的GPU芯片需求或是往年的7、8倍,火热程度可见一斑。

ChatGPT彻底引爆人工智能后,AMD、Intel、以及一众GPU企业也一同上阵竞赛,但是短期来看英伟达地位不可替代。

在多位AI从业者看来,当前大模型的训练需求过于迫切,对性能的要求也很高,而GPU的适配和生态转移都需要很长时间,因此目前大家都优先选择英伟达,和其他厂商的测试验证也在进行中。

一场新的算力之战已经拉开帷幕,如果说算力是一个江湖,那么此刻英伟达就是一名绝世高手。它身怀加速计算的绝技,尤其在AI战场上一骑绝尘,似乎每一次都能精准地踏在浪潮的节奏上。从游戏PC市场、到深度学习的崛起、到云计算的普及、再到生成式AI的降临,英伟达的技术所向披靡。

然而,英伟达创始人黄仁勋在2017年接受媒体采访时却说道:“15年来,我讲的都是同一个故事。我几乎都不用修改我的幻灯片。”他说,他预测不到人工智能何时来临,但无比坚信图形计算的优越性。

回头看,英伟达早已超越了GPU本身的概念,AI成为最大的标签,算力的绝世武功撑起了新的万亿帝国。

起步

1993年,常年身披黑夹克的黄仁勋不顾分析师的劝阻,毅然决定和伙伴创立英伟达。那一年,黄仁勋刚好30岁,他面对的市场环境并不乐观,在九十年代,图形处理器、或者说图形加速卡领域群雄混战,上百家企业在场上短兵相接。

更重要的是,彼时图形加速卡并未受到重视,聚光灯都投射在CPU上。在1993年前后,意气风发的CPU战场上,算力主角是老牌传奇英特尔和AMD,双方正在酣战。

1991年英特尔成为当时全球最大的半导体企业,1993年英特尔又推出了80586芯片,为了与AMD芯片进行区别,又将其命名为奔腾;1991年的AMD推出了Am386微处理器系列,打破了英特尔的市场垄断,在1993年,AMD又推出Am486微处理器。

而在英特尔和AMD为代表的x86架构的CPU之外,苹果和Arm也已经联手进入芯片界。1993年,苹果推出Newton MessagePad(牛顿机,PAD鼻祖),就首次搭载了Arm架构处理器。与此同时,苹果还和IBM、摩托罗拉结成联盟,来对抗“Wintel”,三者联合研发出芯片PowerPC,在1994年用于苹果的台式机上。

正如黄仁勋在近期的一场采访中所言:“30年前,个人电脑革命才刚刚开始,微处理器CPU开始起飞,当时大家认为CPU是解决计算的最好方式。”但是,黄仁勋则一直认为需要有加速计算。

后来,大家都逐渐知道图像处理、视频处理、游戏处理、计算处理等等都需要GPU,不过当时英伟达仍在苦苦寻求技术的应用市场。

幸运的是,英伟达很快找到了计算机图像和电子游戏结合的场景。在研发过程中,一家日本游戏公司世嘉向英伟达投来橄榄枝,愿意提供给700万美元的资金。

视频游戏的风口似乎就在眼前,当时PC和游戏是最主要的消费电子市场,英伟达赶上了班次。但是好景不长,英伟达在3D图像技术上选择了错误的路线,不能兼容微软制定的新主流标准,初代产品NV1最终销量惨淡,眼看着为世嘉研发的芯片也要面临着被淘汰的局面。

如果不能完成芯片开发,公司将陷入绝境。黄仁勋在日前的演讲中也提到了创业初期的这次危机,最终他和世嘉说明实情,而世嘉竟然同意支付研发费用,拯救了在倒闭边缘徘徊的英伟达。

经历过此番波折后,黄仁勋在1997年提出了业界知名的“黄式定律”,其预测显卡性能每六个月就提升一倍,远超摩尔定律的速度。当年这更像是黄仁勋对外的一次宣言,是为自己定下的标准和目标,而现在这已经变成了现实。这也是黄仁勋在演讲中多次提及的“跑得快”,他说当道路很长时,跑得快是唯一的策略。

时运

很快,英伟达迎来更大的转机。

1997年,英伟达推出的新款图形加速芯片RIVA 129成功逆袭,开售后四个月内出货量就超过100万台。1998年,英伟达又和台积电牵手合作,在图形加速领域更上一层楼,在竞争无比激烈的PC和游戏市场上,英伟达快跑进入了决赛圈。

1999年,英伟达顺利上市,并率先提出了GPU概念,推出全球首款GPU——Geforce256。这是一款关键性产品,至此,GPU已经不仅仅是辅助CPU的角色,其出色的并行计算能力将提供更强劲的算力。

2000年,微软Xbox搭载了来自英伟达的GPU,英伟达还在2002年底和索尼达成了合作,为游戏主机PlayStation3提供显示芯片。可以说,接下来英伟达在游戏界大杀四方,当然这其中也历经了兼并收购、大鱼吃小鱼,起起落落,最终才杀出重围。

在游戏、PC市场上登顶的过程中,英伟达也一直在寻找新的场景,也曾在蓬勃的手机市场铩羽而归,也面临着PC市场没有那么性感的现实。然而,在2010年后,人工智能、云计算的浪潮在慢慢靠近,从自动驾驶到神经网络深度学习,GPU展现出了强大而专一的加速计算能力。

深度学习崛起的过程中,GPU提供的卷积运算、并行运算等特性,恰好可以满足AI计算的需求;在全球云化的趋势之下,数据中心的计算背后都需要GPU提供算力支持。

英伟达又一次在新领域中崛起,就像是它碰巧有绝世的武功,武林江湖环境变换,它却始终能以独门秘籍开启新路。谁能料想,后来的事实证明,GPU不仅能用于AI、还能用于挖矿。要知道,AI的概念在AlphaGo热潮后陷入沉寂,恰逢区块链站上风口,GPU凭借矿机需求一路走高。

众所周知,此后区块链热度下滑,疯狂的矿机需求回落,英伟达的股价也应声而落,然而到了2022年末,人工智能重返科技舞台中心,生成式AI成为英伟达市值的新动能,英伟达的产品也是生成式AI的主引擎。

潮起潮落间,黄仁勋也从外界眼中的“游戏小子”成为“AI教主”。一路以来,英伟达抓住了计算设备需求的关键时机,从图形渲染、到人工智能、乃至区块链领域的计算都表现得十分突出,应用场景也覆盖了PC、数据中心、汽车等市场。到2023财年,英伟达数据中心的营收占比首次超过了游戏,达55.6%。

谈及数据中心业务,黄仁勋说:“尽管我们需要更多算力,但是数据中心消费并没有那么快速的增长,因为摩尔定律到现在已经发生变化,已经结束了,如果我们想要更多的算力,所有数据中心都需要加速,区别于ASIC芯片用于特定程序,英伟达是通用加速计算平台。”

超越

英伟达最初的标签就是GPU,但仅仅是图像领域的应用,并不足以支撑英伟达后来高涨的市值。在练就绝技的过程中,英伟达早已超越了最初GPU的概念,进入到更广泛的产业之中。

其中,业内人士提及最多的两大内功是GPGPU和CUDA,它们在为人熟知的芯片之上,为产业制定了一整套软硬件标准,强大的软件生态也让英伟达当前立于不败之地。

首先,回到GPU和CPU的区别上,GPU到底有何特色?为何能从配角成为主角?

GPU和CPU是现代计算机中不可或缺的两个组成部分,但它们在运算方式、功能等方面却存在着明显的差异。简单来说,CPU主要负责执行指令集中的算术逻辑操作,而GPU则更擅长于并行计算。这是因为GPU拥有大量的核心,每个核心都可以独立地进行计算任务,从而实现高效的计算。

做个粗糙的比喻,在电脑上绘制一张图时,CPU的运算方式更加讲究逻辑,需要按照顺序去绘制像素,而GPU可以同时去绘制多个像素。而绘制背后主要是GPU在进行矩阵运算,就像一个矩阵运算界的顶尖高手。

一开始,GPU正如其名“Graphic Processing Unit”,专供图像显示。一个重要跨越是在2007年,英伟达提出了GPGPU架构,即用于通用计算的GPU,将GPU从传统的图像处理器,广泛普及应用到计算训练当中。

GPU在图像处理、视频编码等领域表现优秀,而在一些特定的应用场景中,如科学计算、工程仿真等,需要更高的计算能力和更大的内存带宽,这时就需要使用更为强大的GPGPU进行更大规模的并行运算。

这是英伟达扩大市场版图的一个重要节点。更为重要的是,英伟达还在2006年推出了自己的CUDA平台,构建了强大的AI算力生态。

CUDA是英伟达的并行计算平台和编程模型,CUDA可以通过利用GPU的处理能力大幅提升计算性能,让GPU拥有解决复杂计算问题的能力。而通过CUDA平台,开发者们可以在编程时更方便地调度底层的GPU算力。

可以说,CUDA平台是英伟达建立的并行运算的一整套软硬件生态标准,所有英伟达的GPU都兼容CUDA,并且大多数AI芯片均与之匹配兼容,尤其是训练端芯片。因此,尽管GPU或者AI的创业公司层出不穷,大多都兼容英伟达的CUDA平台,要再创建自有生态的壁垒和成本都很高。

有产业链人士向21世纪经济报道记者表示,CUDA拥有400多万开发者,软件生态的护城河非常高,目前要迁移到国内较为成熟的AI芯片平台上,可能需要2、3年的时间。

当前在全球的GPU市场上,主要玩家是英伟达和AMD,英特尔近年也在发力GPU产品线,而英伟达目前仍占据主要市场份额。对标CUDA来看,AMD也在打造开放的ROCm平台,ROCm平台于2016年推出,AMD也在不断优化ROCm套件。

亚马逊创始人杰夫·贝索斯曾在一次访谈中说道:“如果产品做得优秀,并且足够幸运,一般会有两年的领先优势,在AWS业务上亚马逊领先了七年,七年没有势均力敌的竞争对手。”

再看英伟达和AMD,CUDA比ROCm整整超前了10年,CUDA十年磨一剑,挑战者们仍在追赶之中。

“通吃”  

回顾GPU和AI的发展史,黄仁勋说道:“2012 年,计算机视觉模型 AlexNet 就使用GeForce GTX 580进行训练,使用1400万张图像训练了AlexNet ,每秒可处理 262 PetaFLOPS(千万亿次浮点运算)。经过训练的模型以压倒性优势赢得了ImagNet挑战赛,并引发了AI的大爆炸。”

这时,GPU和AI的相拥就已经深埋种子,十年之后,Transformer模型面世,OpenAI基于Transformer开发了GPT-3。

此前的演讲中,黄仁勋谈到,GPT-3的训练需要323 ZettaFLOPS的算力,相当于AlexNet 的100万倍,从而创造了ChatGPT 这个震惊全世界的AI。在他看来,崭新的计算平台已经诞生,AI 的 “iPhone时刻”已经来临,加速计算和AI技术已经走进现实。

今年的GTC大会上,黄仁勋公布了诸多与生成式AI相关的进展,随后又在台北国际电脑展COMPUTEX上继续放出王炸,他宣布GH200 Grace Hopper超级芯片正式投产,并公布由256个GH200驱动的新型DGX GH200 AI超级计算机。

而此前英伟达就已经做足了功课。2022年,英伟达推出了多款重磅产品,分别是基于全新Hopper架构的H100 GPU、CPU和GPU的合体Grace Hopper、两个CPU组合的Grace CPU Superchip,CPU的产品在2023年上市。

其中,设计GPU新架构Hopper时,英伟达增添了一个Transformer引擎,专门为Transformer算法做了硬件优化,加快AI计算的效率。

一位国内芯片从业者向21世纪经济报道记者直言:“H100出来,其实就是一个新时代了,Grace-Hopper再一个组合,加上高配的互联,完全不给活路,英伟达赢家通吃,AMD、Intel继续苦追。”

同时他也表示:“目前国内一些企业还是在盯着CNN做优化,英伟达已经有Transformer引擎,然后AIGC火热,恰好能做支持。这个眼光,只能佩服他们的科学家们对这个领域深刻的认识。”

一位学术界人士也向21世纪经济报道记者分析道:“从H100上,包括专用的Transformer引擎以及对FP8格式的支持,可以看到计算硬件在向应用定制的方向前进。Grace CPU说明了整合异构计算系统的重要性。单纯的加速器优化和设计已经不能够满足现在对于计算系统的算力和能效比的要求,需要各个部分的协同优化和设计。”

他还表示,Grace CPU通过提高通信带宽和在CPU和GPU之间建立一致(coherent)的内存模型来解决运算中的瓶颈,这也和学界(近存计算,存内计算)与业界(CXL,CCI等等系统互联协议)一直在关注的方向是一致的。

总而言之,在GPU和CPU的各种排列组合中,英伟达又将算力提升到了新高度。正如黄仁勋所言:“我们正在重新发明计算机,加速计算和人工智能标志着计算正在被重新定义。”

黄仁勋在采访中还提到,数据中心需要用的CPU越来越少,不再是传统上购买数百万个CPU,而是转而购买数百万个GPU。换言之,在他看来,AI算力江湖已经是GPU的主场。

野心

英伟达的布局还不止于此。

一个现实问题是,高性能的算力也意味着高昂的价格。大模型训练成本动辄成千上百万美元,并不是所有公司都能承受。

而英伟达同时提出了云服务的解决方案NVIDIA AI foundations,黄仁勋表示要做“AI界的台积电”。台积电大大降低了芯片设计公司生产门槛,英伟达也要做代工厂的角色,通过和大模型厂商、云厂商合作提供高性价比的云服务。

前述芯片从业者对记者解析道:“卖云服务,就是联合大模型方提供Pre training(预训练)的模型,小企业直接Fine tuning(微调)就有自己的了。”

在帮助下游企业降低大模型训练成本的同时,英伟达还在逐步参与到上游的产业链升级中。今年,英伟达牵手台积电、ASML、新思,发布了计算光刻库cuLitho。

前述学术界人士向记者介绍道,计算光刻是在芯片设计和制造领域的关键步骤,也是最大的计算负载之一。计算光刻库的技术突破就在于,可以通过部署有大量GPU的DGX AI计算系统对计算光刻进行加速,使其达到原有的基于CPU的计算速度的几十倍,同时降低计算过程的总能耗。这将有助于晶圆厂缩短原型周期时间、提高产量、减少碳排放,为2nm及更先进的工艺奠定基础,并为曲线掩模、高数值孔径极紫外、亚原子级光刻胶模型等新技术节点所需的新型解决方案和创新技术提供更多可能性。

新思方面向21世纪经济报道记者表示,此次研发合作中,cuLitho集成了新思科技Proteus全芯片掩膜合成解决方案和新思科技Proteus ILT反向光刻图形技术,并进行了优化,以便在最新一代NVIDIA Hopper架构GPU上运行。如今,在cuLitho平台上运行Proteus解决方案只需要500个NVIDIA DGX H100 GPU,替代此前用于计算光刻的40000台CPU服务。计算光刻过程的所有部分都可以并行运行,将电力能耗需求和运行时间从几周减少到几天。

在多位产业界人士看来,虽然短期内不会影响到下游的应用方面,但是这些上游的研发和升级将长期影响产业的发展,累积形成代际差。

“英伟达在GPU架构的迭代上,一直都有属于自己的发展路径,这几年的发展,也让英伟达跃居AI算力芯片领域的领导者,也因为领先,所以英伟达会思考如何做更多元的布局与行业内的深度合作,这样更能了解行业的需求,比方和台积电等合作便是很好的例子。”芯片行业专家姚嘉洋向21世纪经济报道记者表示。

在2008年的电视采访中,黄仁勋说:“希望有一天大家都认识英伟达,就像大家都认识微软、英特尔一样。”如今,英伟达几乎是家喻户晓,拥有绝世的武功,比大梦想更加重要。

2023年,英伟达30周年之际,黄仁勋在采访中说:“(公司)直到现在才真正起飞。”生成式AI助力英伟达成为算力的新王。

当然,英特尔和AMD都已经吹响反攻的号角。7月,英特尔面向中国市场推出了AI芯片Habana Gaudi 2;6月,AMD推出AI芯片Instinct MI 300X,两者都直接对标英伟达100系列。围绕着算力、纳米的权力游戏还将继续。

21Tech

南财集团特色栏目

往期推荐

美团固定直播入口 本地生活战场再升温

07-12

靠意念打游戏?脑机智能迈出关键一步

07-12

Keep,不想烧钱了

07-11

扎克伯格突袭马斯克,“推特杀手”用户增速超ChatGPT

07-12


追加内容

本文作者可以追加内容哦 !