英伟达cuda的优势及挑战-电玩城游戏大厅

来源：证券之星　阅读量：17216　发表时间：2025-02-10 06:26:59

wangdizhe

ds对英伟达的挑战，并不是简单的“算法平权”。。还有开源对闭源的挑战。。。如果只是了解ah100或者gb200这种东西，意义不大，英伟达的护城河主要是cuda。。

cuda的故事起步于2006年11月份发布的geforce8800gtx。。。19年前了，那是一个起点。。。。2007年6月份发布了nv的gpgpu，cuda出世。。这个跳跃是让显卡不仅能用在图像绘制了，也能用在其他方面了

ai的本质，其实和btc的哈希算法类似，都是大量的数学计算。。。这也可以解释为啥近10年金融越来越“数学化”，包括做对冲的幻方能弄出ds，也是因为它是最具“金融数学化底蕴的对冲私募”。。。

主要就是transformer那套，也就是比如从一维的向量到二维的矩阵。。然后再到三位或高位的张量。。核心不在于算的多难，而在于算的题量很大。。

gpu更像一个“事业部经理”，而cpu类似于一个“ceo”。。。it世界一开始，ceo比较重要，因为机会多多，需要面面俱到，就像80-90年代做生意，压对方向很重要。。。但随着时间发展，需要不断“细分而深化”，尤其是显卡计算部分，这部分其实初期是游戏推进的，但后期科学计算的需求上来了，把控机会需要更好的“项目经理”。。

gpu内部有很多逻辑计算单位，每个单元基本上只做简单的加减乘除，靠着分工协同完成庞大的计算任务。。。cuda就是gpu这个项目部经理手下的“调度总管”(类似于常务主管)。。比如计算张量这个活，就具体分派谁谁来做。。。也就是cuda的作用，其实就是“算力调度者”，它优化算法效率。。。

这个作用类似于斯隆对通用汽车的管理，也就是在具体的“算力事业部内”，cuda这个算力调度者，甚至有比肩整个事业部经理的实力。。。因为所谓的算力，amd也有，也就是经理不稀罕，调度总管那套管理方法，却是稀缺的。。。

算力管理的优化，也是ds之所以引人瞩目的地方，因为人们认为“算力调度工作”应该在cuda逻辑下优化。。。但没想到ds，用了一些方法，似乎实现了更大的优化，人们好奇的就是它是如何实现的？以及优化算力之后，对于未来算力需求是不是降低？以及这对于“算力优化”世界，意味着什么？

cuda的好处，是如果研究者，只会ai模型的训练及推理方法，而不会任务分类的话，也没事，nv有cudnn程序库，这样玩ai的，只需要专注于训练或推论就行了。。。因为模型中所有需要任务分类的地方，cudnn都会自动配置好。。。。。就是cuda不仅配合nv硬件可以发挥更高更快的算法优势，而且也帮你做好了“算力分配套件”(也就是任务翻译)，降低了项目开发的门槛，等于是一个特殊的“懒人包”。。。所以开发人员都喜欢用，然后20年过去了，用的人越来越多，产生生态影响力和开发依赖度。。。

未来英伟达还要推行量子计算，比如2023年就推出了cuda quantun平台，这部分也是为未来布局。。其实逻辑核心依然是“并行计算”，也就是用多个处理单元，同时推进。。。计算量越大，越快，就越容易“大力超快出奇迹”。。。从一定程度上，可以理解cuda在gpu领域，是类似于x86在cpu领域的那种“专利优势”。。。

cuda未来就没有挑战么？当然有的，大概4个维度

1、硬件挑战

首先基本上，每个做cpu的，其实都看着做gpu的这么火眼馋。。。amd的mi300x使用cpu gpu的异构结构，拥有192gbhbm3内存和5.3tb/s带宽，直接对标英伟达的h100，价格基本是其三分之一。。。然后amd还通过rocm平台通过兼容cuda代码吸引开发者，弱化cuda生态。。。英特尔虽然遇到困境，但有美国政府撑腰，也没闲着，其gpu加速器结合了xe架构和开放标准sycl，通过oneapi实现跨硬件(cpu/gpu/fpga)统一编程，降低对cuda的依赖。

然后就是科技巨头的自研芯片，比如谷歌tpu通过专用张量核心和软件栈在ai训练中实现更高能效比。。。aws的自研芯片直接与cuda生态脱钩，挑战英伟达的云市场份额。

以及中国势力的挑战，主要就是华为昇腾、寒武纪等国产芯片在政策驱动下抢占本土市场，通过兼容pytorch等框架绕过cuda绑定。

最后是硬件架构方面的挑战，尤其是risc-v与开源硬件架构，比如ventana的veyron正在催生新的开源加速器架构，进一步分化cuda的硬件依赖。

2、软件挑战

英伟达的闭源属具，让其必然引来开源的挑战，ds事件其实就是代表之一。。。

首先就是开源编译器的性能逼近，比如openai triton，支持python编写gpu内核，在nvidia gpu上性能接近cuda，同时兼容amd和英特尔硬件，成为cuda的“平替”。。。再比如mlir和llvm生态，mlir允许跨硬件优化，开发者可通过单一代码库生成cuda、rocm或sycl后端，削弱cuda的工具链垄断。

然后就是ai框架的硬件抽象化:比如pytorch 2.0与torchdynamo，pytorch通过编译器技术自动优化计算图，无需手动编写cuda内核即可实现高性能，降低开发者对cuda的依赖。再比如jax和xla编译器，谷歌jax的自动并行化和xla编译技术可在tpu/gpu间无缝迁移代码，形成独立于cuda的生态。

最后是跨平台标准:比如vulkan compute和sycl等开放标准支持多厂商硬件，未来可能挤压cuda的生存空间

3、cuda本身存在的技术瓶颈

内存墙与通信瓶颈:gpu显存容量和带宽增长放缓，而大模型训练需要tb级内存，迫使开发者转向分布式计算或多芯片方案，cuda的单卡优化优势被稀释。。。其次是nvlink和infiniband的私有协议面临ucie(通用芯粒互联)等开放标准的竞争，可能削弱nvidia全栈技术的协同效应。

能效比挑战: 随着摩尔定律放缓，单纯依靠制程升级提升算力的模式不可持续。cuda需在稀疏计算、混合精度等算法层创新，但竞争对手通过架构革新实现更高能效。

量子计算与神经形态计算的长期威胁:量子计算在特定领域的突破可能分流hpc需求。。。神经形态芯片(如intel loihi)更适合脉冲神经网络，这些新型计算范式与cuda的simt模型不兼容。

4、市场及政策挑战

地缘政治与供应链风险:美国对华高端gpu出口限制迫使中国厂商加速去cuda化，华为昇腾的cann和百度的paddlepaddle正在逐渐强化替代性生态。。未来美国对从香港和新加坡渠道都会加强管理，对华ai芯片营收占到英伟达总量的20-25%，这部分如果管制加强，英伟达业绩会受到影响。。。

云厂商的“去nvidia化”策略:aws、azure等云服务商通过自研芯片和多元化硬件方案降低对nvidia gpu的采购比例，cuda在云端的统治力可能被削弱。

开发者社区的迁移成本降低:工具链可将cuda代码自动转换为hip(amd)或sycl(intel)，迁移成本从“月级”降至“天级”，cuda的生态锁定效应减弱。

英伟达也不傻，早就看到了这些威胁，因此也在cuda护城河上做出应对，大概做了4点应对:

1、强化全栈优势:首先是软硬件协同设计，通过grace hopper超级芯片通过nvlink-c2c实现cpu/gpu内存一致性，提升cuda在异构计算中的竞争力。。。。然后是，cuda-x生态扩展，集成更多加速库，覆盖量子计算和科学计算等新领域。

2、拥抱开放标准:有限支持开源编译器，同时推动nvidia贡献标准组织(如参与mlir开发)，避免被边缘化。

3、抢占新兴场景:首先是重视“边缘计算”，通过jetson平台和cuda-on-arm支持边缘ai，应对ros 2等机器人框架的异构计算需求。。。。然后是打造数字孪生与元宇宙，omniverse平台依赖cuda实现实时物理仿真，构建新的技术护城河。

4、商业模式创新:打造cuda-as-a-service，通过ngc提供预训练模型和优化容器，增加用户粘性。

整体来看，由于20年技术积累，开发者的生态黏性，以及巨大的迁移成本。。。导致cuda护城河当下还比较强大，追的最快的就是amd，但至少3年内英伟达cuda还是优势明显。。。。但从seekingalpha等文章反馈来看，如果cuda被超越或者被追上。。。大概有2个临界预警值:

1、技术临界点:当竞争对手的硬件性能超越nvidia且软件生态成熟度达到80%以上。

2、经济临界点:云厂商自研芯片成本低于采购nvidia gpu的30%。

所以要想投资互联网或者芯片产业，需要对于技术趋势有深度了解，阅读大量的资料和文献。。。对于“强科技成长”的估值尤其难，这也是巴菲特基本不碰强成长科技股的原因。。。美股这么贵，我旁观。。。先积累一些知识和资料，等回调时候方便下手。。

今日话题雪球创作者中心

$纳斯达克综合指数$ $英伟达(nvda)$ $amd(amd)$

声明：以上内容为本网站转自其它媒体，相关信息仅为传递更多企业信息之目的，不代表本网观点，亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险，需谨慎。

openmandriva

近9000名医生线上出诊互联网医院平台已服务超百万人次 2025-02-10

图文推荐

热门24h