Dwarkesh Patel:

我们看到许多软件公司的估值大幅下挫,因为市场普遍预期 AI 会让软件商品化。有一种或许过于简单的看法是:英伟达把 GDS2(芯片版图设计文件)发给 TSMC(台积电),TSMC 制造逻辑芯片和交换机,再与 SK Hynix、Micron、三星生产的 HBM(高带宽内存)进行封装,最后送到台湾的 ODM(原始设计制造商)组装成整机。从本质上说,英伟达是在做软件,制造都交给别人完成。如果软件被商品化了,英伟达会不会也被商品化?

黄仁勋:

归根结底,总得有某种东西把电子转化为 token(词元)。将电子转化为 token、并让这些 token 随时间变得愈发有价值,这件事很难被彻底商品化。从电子到 token 的转化是一段极为精妙的旅程。制造一个 token,就像让某个分子比另一个分子更有价值,让某个 token 比另一个 token 更有价值。要让一个 token 变得有价值,需要倾注大量的艺术、工程、科学与发明——我们正在实时见证这一切的发生。这背后的转化过程、制造工艺、以及所有科学知识,远未被深刻理解,旅程也远未结束。我不认为它会被商品化。

当然,我们会让它变得更高效。你提问的方式正好契合我对公司的心智模型:输入是电子,输出是 token,中间是英伟达。我们的工作是做到"尽量必要、尽量精简",以完成这一转化并发挥出令人难以置信的能力。所谓"尽量精简",就是凡是不需要我们亲自做的,就与合作伙伴共同完成,纳入我们的生态系统。

如今的英伟达,无论是上游供应链还是下游,我们拥有业界规模最大的合作伙伴生态——涵盖所有计算机厂商、应用开发者和模型开发者。AI 是一个"五层蛋糕",我们在全部五层都拥有生态系统。我们力求做尽量少的事,但必须由我们来做的那部分,结果证明是难得出奇的。我不认为那会被商品化。

事实上,我也不认为企业软件公司、工具开发商会被商品化……如今大多数软件公司是工具开发商,有些不是,有些是工作流程的编码化系统,但很多公司本质上是在做工具。比如 Excel 是工具,PowerPoint 是工具,Cadence 做工具,Synopsys 做工具。我看到的恰恰与大众相反——我认为 agent(智能体)的数量会呈指数级增长,工具的使用者数量也会呈指数级增长。这些工具被调用的实例数量,极有可能会急剧飙升。

Synopsys Design Compiler 的运行实例数很可能会大幅增加,使用布局规划工具、我们的版图工具以及设计规则检查器的 agent 数量也会如此。今天,我们受限于工程师的人数;明天,这些工程师将得到大量 agent 的辅助。我们将以前所未有的方式探索设计空间,而使用的依然是我们今天的工具。

我认为,工具的广泛使用将让软件公司的业务飞速增长。之所以目前还没发生,是因为 agent 还不够擅长使用这些工具。要么这些公司自己来构建 agent,要么 agent 变得足够强大,能够熟练使用这些工具。我认为两者都会发生。


Dwarkesh Patel:

我注意到,英伟达在最新的财报文件中,与晶圆厂、内存和封装厂商的采购承诺已接近 1000 亿美元。SemiAnalysis 报道称,这类采购承诺将达到 2500 亿美元。有一种解读是:英伟达真正的护城河,在于你们锁定了多年的稀缺元器件供应。竞争对手或许也能做出加速芯片,但他们真的能拿到配套的内存吗?能拿到制造所需的逻辑芯片吗?这是否才是英伟达未来几年真正的核心护城河?

黄仁勋:

这是我们能做到、而他人难以复制的事情之一。我们在上游做出了巨大承诺——你提到的那些是明确的承诺,另外还有隐性的承诺。比如,上游的许多投资是由我们的供应链伙伴自主做出的,因为我对那些 CEO 说过:"让我告诉你这个行业将有多大,让我解释原因,让我和你一起推演,让我向你展示我的判断。"

通过这个传递信息、激发信心、与各行业上游 CEO 达成共识的过程,他们愿意为此投资。他们为什么愿意为我投资,而不是为别人?原因在于,他们知道我有能力消化他们的供给,并通过我的下游渠道卖出去。英伟达的下游供应链和下游需求体量如此庞大,让他们有信心做上游投资。

你看看 GTC(英伟达技术大会),人们对它的规模和到场人数叹为观止。它是一个完整的 360 度视野,整个 AI 宇宙汇聚一堂。大家之所以聚在一起,是因为彼此需要看到对方。我把他们聚拢起来,让下游看到上游,上游看到下游,所有人都能看到 AI 的最新进展。更重要的是,所有人都能与 AI 原生企业、各类 AI 初创公司见面,亲眼目睹那些令人惊叹的事情,从而亲身验证我所说的一切。我花了大量时间直接或间接地向供应链、合作伙伴和生态系统传递我们面前的机遇。

有人常说:"Jensen,你的主题演讲几乎每场都是一个接一个的发布。"但我们的主题演讲,总有一部分让人觉得有些"煎熬"——几乎像是在上课。事实上,这正是我的本意。我需要确保整个上下游供应链和生态系统都能理解:接下来要发生什么、为什么会发生、什么时候发生、规模会有多大——并且能够像我一样系统地推演。

回到你说的护城河:我们能够为未来做好布局。如果未来几年的规模是万亿美元级别,我们有供应链来支撑。没有我们的影响力和业务周转速度……就如同有现金流,也有供应链流、有周转速度。没有人会为一个周转率低的架构专门构建供应链。我们能够维持这种规模,正是因为我们的下游需求足够强劲。他们看到了,听到了,也预见到了这一切的到来。这让我们能够以现有的规模做我们能做的事。


Dwarkesh Patel:

我想更具体地了解一下,上游能否跟得上。这么多年来,英伟达的营收一直在年同比翻倍,你们每年向全球提供的算力(flops)增速超过三倍。

黄仁勋:

而且在现在这个规模上做到翻倍,真的令人难以置信。

Dwarkesh Patel:

正是。但再看逻辑芯片这块——你们是 TSMC N3 节点最大的客户,也是 N2 节点最大的客户之一。根据 SemiAnalysis 的数据,今年 AI 将占 N3 产能的 60%,明年更将达到 86%。当你已经占据大多数产能时,如何再实现翻倍?如何年复一年地做到?我们现在是否已经进入这样一个阶段——AI 算力的增长率必须因上游瓶颈而放缓?你有没有办法绕过这个问题?归根到底,我们如何年复一年地建造两倍数量的晶圆厂?

黄仁勋:

在某种程度上,瞬时需求已经超过了全球上下游的总供给。在某个瞬间,我们确实可能受制于水管工的数量——这种事实际上真的发生过。

Dwarkesh Patel:

水管工要被邀请参加明年的 GTC 了。

黄仁勋:

顺便说,这个主意不错。但这其实是一种好现象。你希望这个行业的瞬时需求大于总供给。反过来显然没那么好。如果供需差距太大,某个特定环节供应严重不足,整个行业就会一拥而上。举个例子,现在大家已经很少提 CoWoS(先进封装技术)了。

原因在于,过去两年我们对它进行了疯狂投入,连续翻了好几番。现在我认为情况相当不错。TSMC 如今明白,CoWoS 的产能必须与逻辑需求和内存需求同步跟上。他们正在以与逻辑芯片同等的速度扩张 CoWoS 及未来封装技术的产能。这非常好,因为长期以来,CoWoS 和 HBM 内存都属于较为小众的专业技术。但它们已不再小众。人们现在意识到,它们是主流计算技术。

当然,我们现在更有能力去影响更大范围的供应链。AI 革命之初,我现在说的这些话,五年前我就在说了。当时有些人相信,并为此投资,比如 Sanjay 和 Micron 团队。我还清晰记得那次会面,我明确说明了会发生什么、为什么会发生,以及对今天的预测。他们真的加倍押注。我们在 LPDDR 和 HBM 内存领域与他们深度合作,他们也真的大力投入。这对公司而言显然成效显著。有些人来得稍晚,但现在都到位了。

每一个瓶颈都会获得高度关注。现在我们在提前数年预判并准备瓶颈。例如,过去几年我们与 Lumentum、Coherent 以及硅光子生态系统的合作投资,从根本上重塑了供应链。我们围绕 TSMC 构建了一整套供应链,与他们联合开发了 COUPE 技术,发明了一大批技术,并将这些专利授权给供应链,保持其开放性。

我们通过发明新技术、新工作流程、新测试设备(比如双面探针测试),投资相关公司,帮助它们扩大产能,来为供应链做好准备。你可以看到,我们正在努力构建生态系统,让供应链做好支撑这一规模的准备。


Dwarkesh Patel:

看起来有些瓶颈比其他的更容易解决。扩大 CoWoS 产能,比起扩大……

黄仁勋:

顺便说,我举的那个例子才是最难的。

Dwarkesh Patel:

哪个?

黄仁勋:

水管工。水管工和电工。这也是我对那些"末日预言者"(doomers)鼓吹工作消亡、杀死就业岗位的担忧所在。如果我们让人们望而却步,不去成为软件工程师,我们就会面临软件工程师短缺。同样的预言十年前也出现过。当时有些末日论者告诉大家:"无论如何,千万别去做放射科医生。"你现在或许还能在网上找到那些视频,说放射科是第一个会消失的职业,世界上不再需要放射科医生。猜猜我们现在最缺什么?放射科医生。


Dwarkesh Patel:

回到这个话题——有些东西你可以扩张,有些不行……归根到底,你怎么能每年生产两倍数量的逻辑芯片?内存和逻辑芯片最终都受制于 EUV(极紫外光刻)。你怎么实现 EUV 机台每年翻倍?

黄仁勋:

这些没有一件是不可能在短时间内扩产的。只要有两三年时间,这些都可以做到。你只需要一个需求信号。一旦你能造出一台,你就能造出十台;一旦能造出十台,你就能造出一百万台。这些东西并不难复制。

Dwarkesh Patel:

你的触角伸到供应链多深?你会直接找 ASML 说:"看,如果三年后英伟达要实现每年两万亿美元的营收,我们需要多得多的 EUV 机台"吗?

黄仁勋:

有些需要我直接沟通,有些是间接,有些……如果我能说服 TSMC,ASML 自然就会被说服。我们需要思考关键的卡脖点。但只要 TSMC 被说服,几年后就会有充足的 EUV 机台。

我的观点是,没有任何一个瓶颈会持续超过两三年,一个都不会。与此同时,我们的计算效率在不断提升——10 倍、20 倍,从 Hopper 到 Blackwell 甚至达到 30 倍到 50 倍。我们在持续开发新算法,因为 CUDA 极为灵活。我们开发出各种新技术,在扩大产能之外进一步提升效率。这些都不让我担忧。让我担忧的,是我们下游的事情——比如能源政策阻碍了能源供应……没有能源,就不可能建立一个新产业。没有能源,就不可能构建一个全新的制造业。

我们希望让美国再工业化,带回芯片制造、计算机制造和封装产业,建造 EV(电动汽车)和机器人这样的新事物,建设 AI 工厂。没有能源,这些都无从实现,而能源建设需要很长时间。更多芯片产能,是一个 2 到 3 年的问题;更多 CoWoS 产能,也是一个 2 到 3 年的问题。


Dwarkesh Patel:

有意思。我有时听其他嘉宾持完全相反的观点,而在这个问题上,我自己没有足够的技术知识来做出判断。

黄仁勋:

好在你这次采访到了专家。


(原文时间戳:00:16:25 – Will TPUs break Nvidia's hold on AI compute?)


Dwarkesh Patel:

说得对。我想问问你的竞争对手。如果你看看TPU(张量处理单元)——可以说,全球排名前三的模型中有两个,Claude 和 Gemini,都是在 TPU 上训练的。这对 NVIDIA 未来意味着什么?

黄仁勋:

我们做的是完全不同的东西。NVIDIA 构建的是加速计算,而不是张量处理单元。加速计算被用于各种各样的场景:分子动力学、量子色动力学、数据处理、数据帧、结构化数据和非结构化数据,还用于流体动力学和粒子物理学。此外,我们也用它来做 AI。

加速计算的应用范围要广泛得多。虽然 AI 是当今的热门话题,而且显然非常重要、影响深远,但计算远不止于此。NVIDIA 重新定义了计算方式,将其从通用计算转向了加速计算。我们的市场覆盖范围远超任何 TPU 或 ASIC(专用集成电路)所能企及的。纵观我们的定位,我们是唯一一家能加速各类应用的公司,拥有庞大的生态系统。因此,各种框架和算法都能在 NVIDIA 上运行。

因为我们的计算机是为他人操作而设计的,任何运营商都可以购买我们的系统。而大多数自研系统,你只能自己作为运营商,因为它们从来没有被设计得足够灵活,以供他人运营。正因为任何人都能操作我们的系统,我们遍布所有云平台,包括 Google、Amazon、Azure 和 OCI。

如果你想运营它来出租,你最好在众多行业拥有大量客户作为承接方。如果你想自己运营,我们显然也有能力帮你自主运营,就像我们为 Elon 的 xAI 所做的那样。正因为我们能够赋能任何公司、任何行业的运营商,你可以用它为礼来公司(Lilly)构建一台用于科学研究和药物发现的超级计算机。我们可以帮助他们运营自己的超级计算机,并将其用于我们所加速的整个药物发现和生命科学领域。

有很多应用场景是我们能够覆盖而 TPU 无法做到的。NVIDIA 构建 CUDA(统一计算设备架构)时,也将其打造成了出色的张量处理单元,但它同时还能处理数据处理、计算、AI 等各个生命周期的所有环节。我们的市场机会更大,覆盖范围更广。因为我们现在支持全球所有应用,你在任何地方构建 NVIDIA 系统,都知道会有客户使用它。这是截然不同的东西。


Dwarkesh Patel:

这将是一个比较长的问题。你们的营收非常亮眼,而你们每季度赚到的 600 亿美元并不是来自制药和量子计算。是因为 AI 是一项前所未有的技术,正以前所未有的速度增长。

那么问题来了:究竟什么对 AI 本身最有利?我不深入了解技术细节,但我和做 AI 研究的朋友聊过,他们说:"你看,我用 TPU 的时候,它是一个大型脉动阵列,专门针对矩阵乘法进行了优化;而 GPU(图形处理单元)非常灵活,在有大量分支或不规则内存访问时表现出色。"

但是 AI 到底是什么?它不就是一遍又一遍、周而复始地做这些非常可预测的矩阵乘法吗?你不需要为翘曲调度器(warp scheduler)或线程与内存组之间的切换牺牲任何芯片面积。TPU 确实是针对当前正在爆发的计算营收和使用场景的主体需求而优化的。我想听听你对此有何看法。

黄仁勋:

矩阵乘法是 AI 的重要组成部分,但绝非全部。如果你想提出一种新的注意力机制(attention mechanism)、以不同方式进行分解,或者彻底发明一种全新的架构——比如混合 SSM(状态空间模型)——你需要的是一种通用可编程的架构。如果你想创建一个融合扩散(diffusion)和自回归(autoregressive)技术的模型,你需要的也是一种通用可编程的架构。我们能运行你所能想到的一切,这就是优势所在。它让发明新算法变得容易得多,因为它是一个可编程系统。

发明新算法的能力,才是 AI 得以如此快速进步的真正原因。TPU 和其他所有技术一样,受摩尔定律影响,而我们知道摩尔定律每年带来的提升约为 25%。要实现 10 倍或 100 倍的飞跃,唯一的途径是每年都从根本上改变算法及其计算方式。

这就是 NVIDIA 的根本优势。我们之所以能让 Blackwell(布莱克韦尔,NVIDIA 最新一代架构)相比 Hopper(霍珀架构)提升 50 倍……当我最初宣布 Blackwell 的能效将比 Hopper 提高 35 倍时,没人相信。后来 Dylan 写了一篇文章说我保守了,实际上是 50 倍。光靠摩尔定律,你没法合理地做到这一点。我们解决这个问题的方式,是借助像 MoE(混合专家模型)这样的新型模型,将其并行化、分解,并分布式部署在整个计算系统中。如果没有能够真正深入研究、用 CUDA 编写新内核的能力,这是很难做到的。

正是我们架构的可编程性,加上 NVIDIA 是一家极度注重协同设计的公司,两者的结合才造就了这一切。我们甚至可以将部分计算卸载到互联架构本身,比如 NVLink(英伟达高速互联技术),或者通过 Spectrum-X 网络来实现。我们能够同时在处理器、系统、互联架构、函数库和算法这五个层面推动变革。没有 CUDA,我甚至不知道从哪里着手。


Dwarkesh Patel:

这引出了一个关于 NVIDIA 客户群的有趣问题。你们 60% 的营收来自五大超大规模云服务商。在另一个时代、面对不同的客户——比如说跑实验的教授们——他们需要 CUDA。他们没法用其他加速器,只能用 PyTorch 配上 CUDA,让一切都经过优化。

但这些超大规模云服务商有能力自己编写内核。事实上,他们必须这么做,才能为其特定架构榨出最后那 5% 的性能。Anthropic 和 Google 大部分用的是自研加速器或 TPU,以及 Trainium(亚马逊自研 AI 芯片)。就连使用 GPU 的 OpenAI,也有 Triton,因为他们需要自己的内核。一直到 CUDA C++ 的层面,他们不用 cuBLAS 和 NCCL,而是有自己的技术栈,可以编译到其他加速器上。如果你的主要客户大多数都能够、并且确实在构建 CUDA 的替代品,CUDA 究竟在多大程度上还是使前沿 AI 在 NVIDIA 上运行的关键所在?

黄仁勋:

CUDA 是一个丰富的生态系统。如果你想在任何计算机上率先构建,先在 CUDA 上构建是非常明智的选择。正因为这个生态系统如此丰富,我们支持所有框架。如果你想创建自定义内核……举个例子,我们为 Triton 做出了巨大贡献,Triton 的后端包含大量 NVIDIA 技术。

我们乐于帮助每一个框架变得尽可能出色。各种框架多不胜数,有 Triton、vLLM、SGLang,还有更多。现在还有一大批全新的强化学习框架涌现出来,比如 verl 和 NeMo RL。后训练和强化学习这整个领域正在爆炸式增长。所以,如果你想在某个架构上构建,选择 CUDA 是最合理的,因为你知道它的生态系统非常成熟。

你知道,如果出了什么问题,更可能是你的代码有问题,而不是其底层那座代码大山出了问题。别忘了构建这些系统时要打交道的代码量有多大。出了问题,是你的原因,还是计算机的原因?你当然希望永远是自己的问题,能够信任这台计算机。显然,我们自己也还有很多 bug,但我们的系统经过了如此严格的打磨,至少可以在这个基础上进行构建。这是第一点:生态系统的丰富性、可编程性和能力。

第二点是,如果你是一名开发者,在构建任何东西,你最想要的东西只有一个:装机量。你希望自己写的软件能在大量其他计算机上运行。你不是只为自己构建软件,你是为你的机群,或者所有其他人的机群构建,因为你是一个框架构建者。NVIDIA 的 CUDA 生态系统,归根结底是它最大的财富。

现在我们有了数亿个 GPU。每个云都有。从 A10、A100、H100、H200,到 L 系列、P 系列,不一而足,各种规格和形态。如果你是一家机器人公司,你希望 CUDA 技术栈能在机器人本身上运行。我们真的无处不在。巨大的装机量意味着,一旦你开发出软件或模型,它在哪里都能发挥价值。这简直是无可估量的价值。

最后,我们遍布每一个云服务商,这使我们真正与众不同。如果你是一家 AI 公司或开发者,你不确定自己会与哪家云服务商合作,或者想在哪里运行。我们在哪里都能跑,包括如果你愿意,在你自己的私有部署(on-prem)环境中。生态系统的丰富性、装机量的广泛性,以及我们部署位置的多样性,三者结合,使 CUDA 无可替代。


Dwarkesh Patel:

很有道理。我想我好奇的是,这些优势对你的主要客户来说究竟有多重要。确实有很多人可能会受益。那些真正有能力自建软件栈的人,构成了你们营收的大部分。尤其是,如果我们走向一个 AI 在具有严格验证循环、可以用强化学习训练的任务上变得极其出色的世界……如何在规模化时最高效地编写一个处理 attention(注意力机制)或 MLP(多层感知机)的内核?这是一个反馈循环非常清晰的问题。

那么,所有超大规模云服务商都能为自己编写这些自定义内核吗?NVIDIA 的性价比依然出色,所以他们可能还是会倾向于用 NVIDIA。但这样一来,问题是否就变成了:谁能以相同的价格提供最好的规格、最高的算力和内存带宽?而历史上,NVIDIA 一直凭借这个 CUDA 护城河,在整个 AI 硬件和软件领域保持着超过 70% 的利润率。问题是,如果对你的大多数客户而言,他们实际上有能力自己构建来绕过 CUDA 护城河,你能否维持这样的利润率?

黄仁勋:

我们派驻在这些 AI 实验室、与他们合作优化技术栈的工程师数量多得惊人。原因在于,没有人比我们更了解我们自己的架构。这些架构并不像 CPU 那样通用。CPU 就像一辆凯迪拉克,舒适平稳,速度不快,人人都能开好,有定速巡航,一切都简单。但在很多方面,NVIDIA 的 GPU(加速器)更像 F1 赛车。我能想象人人都能开到时速一百英里,但要将它推到极限,需要相当高的专业水平。我们大量使用 AI 来创建我们拥有的那些内核。

我相当确信,我们在相当长的时间内仍然是不可或缺的。我们的专业知识帮助 AI 实验室合作伙伴,往往能轻松地从他们的技术栈中再榨出 2 倍的性能。我们优化他们的技术栈或某个特定内核之后,他们的模型加速 3 倍、2 倍或 50%,这种情况并不罕见。这是一个巨大的数字,尤其是考虑到他们拥有的机群规模——所有的 Hopper 和 Blackwell 加在一起。性能翻番,直接等于营收翻番。

NVIDIA 的计算栈是全球最佳的性能/TCO(总拥有成本)解决方案,无出其右。没有任何人能向我证明,当今世界上有任何一个平台拥有更好的性能-TCO 比。一个都没有。事实上,外面的那些基准测试——Dylan 的 InferenceMAX 就摆在那里供所有人使用——没有一个……TPU 不来,Trainium 不来。

我鼓励他们使用 InferenceMAX,来展示他们惊人的推理成本。这真的很难。没人愿意露面。MLPerf 也在那里。我非常欢迎 Trainium 来展示他们一直挂在嘴边的那 40% 性能优势。我非常乐意听他们展示 TPU 的成本优势。在我看来,这完全说不通,从第一性原理出发,就根本说不通。

所以我认为,我们之所以如此成功,根本原因就是我们的 TCO 非常出色。其次,你说我们 60% 的客户是五大云服务商,但其中大部分业务是面向外部客户的。例如,我们在 AWS 上的大部分业务是为外部客户服务,而非 AWS 的内部使用。我们在 Azure 的客户显然全部是外部客户,我们在 OCI 的客户也全部是外部客户。他们之所以青睐我们,是因为我们的覆盖范围太广了。我们能为他们带来全世界所有优质客户,而这些客户都构建在 NVIDIA 之上。这些公司之所以都构建在 NVIDIA 之上,是因为我们的覆盖范围和多功能性实在太强了。

所以我认为,这个飞轮的动力来自于:装机量、我们架构的可编程性、我们生态系统的丰富性,以及世界上如此众多的 AI 公司。现在有成千上万家。如果你是其中一家 AI 初创公司,你会选择哪种架构?你会选择最普及的。我们是全球最普及的。你会选择装机量最大的。我们的装机量最大。你会选择生态系统最丰富的。

这就是飞轮的运转逻辑。综合以下几点:第一,我们的性价比如此之高,使他们能够以最低成本生成 token(词元);第二,我们的每瓦性能(perf per watt)是全球最高的——如果我们的合作伙伴之一建了一个 1 吉瓦的数据中心,这 1 吉瓦最好能带来最大的营收和最多的 token 产出,而 token 数量直接转化为营收,你当然希望每瓦产出尽可能多的 token,最大化该数据中心的营收,而我们是全球每瓦 token 产出最高的架构;最后,如果你的目标是出租基础设施,我们拥有全球最多的客户。这就是飞轮能够运转的原因。


Dwarkesh Patel:

有意思。我想问题的核心还是:这里实际的市场结构是什么?因为即使有其他公司……本来可能存在一个世界,其中有成千上万家 AI 公司,大家的计算份额大致相当。但即使通过这五大超大规模云服务商,真正使用算力的人,也是 Anthropic、OpenAI,以及那些大型基础模型实验室——而他们自己就有能力和资源让其他加速器正常工作。

黄仁勋:

不,我觉得你的前提是错的。

Dwarkesh Patel:

也许吧。但让我换一个问题。

黄仁勋:

回过头来让我来纠正你的前提。

Dwarkesh Patel:

好,让我换一个不同的问题。

黄仁勋:

但还是得确保让我回来纠正,因为这对 AI 太重要了,对科学的未来太重要了,对整个行业的未来太重要了。这个前提……听着——

Dwarkesh Patel:

让我先把问题说完,然后我们再一起来讨论。

黄仁勋:

好。

Dwarkesh Patel:

如果你说的这些关于价格、性能、每瓦性能等等都是真的,你怎么解释——比如说,Anthropic 就在几天前宣布了与 Broadcom(博通)和 Google 的数吉瓦级合作协议,用于 TPU,而且 TPU 占到了他们算力的大头?

很明显,对于 Google 来说,TPU 也是算力的大头。所以当我看这些大型 AI 公司,感觉他们的很多算力……曾经有个时间点,全部都是 NVIDIA,但现在已经不是了。所以我很好奇,如果纸面上这些说法都成立,他们为何要转向其他加速器?

黄仁勋:

Anthropic 是一个特例,而不是一种趋势。如果没有 Anthropic,TPU 的增长从哪里来?100% 是 Anthropic。如果没有 Anthropic,Trainium 的增长从哪里来?100% 也是 Anthropic。我认为这是众所周知、被广泛认可的事实。并不是说存在大量的 ASIC 机遇,只有一个 Anthropic。

Dwarkesh Patel:

但 OpenAI 与 AMD 的合作……他们在打造自己的 Titan 加速器。

黄仁勋:

对,但我想大家都承认,他们绝大部分还是用 NVIDIA。我们还会继续深度合作。我不会因为别人用了点别的东西、尝试了其他选项而感到被冒犯。如果他们不去尝试那些东西,他们怎么知道我们的有多好?有时候需要被提醒一下。我们必须持续赢得我们所处的位置。

总是有人大放厥词。看看有多少 ASIC 项目已经被砍掉了。只是打算造一个 ASIC……你还是得造出比 NVIDIA 更好的东西才行。造出比 NVIDIA 更好的东西不是件容易的事,实际上也不是什么理智的想法。NVIDIA 肯定有什么地方是漏掉的才对,认真的。凭借我们的规模和迭代速度,我们是全世界唯一一家每年都能做到这一点的公司——每年都是大幅度的飞跃。

Dwarkesh Patel:

我猜他们的逻辑是:"嘿,它不需要更好,只需要不比你差超过 70% 就行了,因为他们付给你 70% 的利润率。"

黄仁勋:

不,别忘了,就算是 ASIC,利润率也相当高。NVIDIA 的利润率是 70%,好吧。但 ASIC 的利润率是 65%。你到底能省多少?

Dwarkesh Patel:

哦,你是说从 Broadcom 这样的公司那里买?

黄仁勋:

对,就是。你还是得付钱给别人。据我所知,ASIC 的利润率高得惊人。他们自己也这么认为,还相当为自己出色的 ASIC 利润率感到骄傲。

说到你问为什么——很久以前,我们确实没有能力这么做。当时,我并没有深刻认识到打造一个像 OpenAI、Anthropic 这样的基础 AI 实验室有多难,也没有意识到他们需要从供应商那里获得巨额投资。我们当时没有能力向 Anthropic 进行数十亿美元的投资,让他们得以使用我们的算力。但 Google 和 AWS 做到了。他们在最初就投入了巨额资金,Anthropic 作为回报,使用了他们的算力。我们当时确实没有能力这样做。

我会说,我的失误在于,我没有深刻认识到他们实际上别无选择——风险投资机构绝不会向一家 AI 实验室投入 50 到 100 亿美元,仅仅期望它能最终成长为 Anthropic。那是我的失误。但即使我当时意识到了,我们也未必有能力这么做。不过,我不会再犯同样的错误了。

我很乐意投资 OpenAI,也很乐意帮助他们扩大规模,我认为这是必须要做的事。后来,当 Anthropic 来找我们的时候,我也很乐意成为投资方,很乐意帮助他们扩大规模。只是当时我们没有能力这么做。如果能倒回去重来——如果 NVIDIA 那时就有现在这么大——我早就非常乐意这么做了。


00:41:06

Dwarkesh Patel: 这其实相当有意思。多年来,NVIDIA 一直是 AI 领域最赚钱的公司,赚了很多很多钱。现在你们开始对外投资了。据报道,你们向 OpenAI 投资了高达 300 亿美元,向 Anthropic 投资了 100 亿美元。但现在这些公司的估值已经大幅上涨,我相信还会继续上涨。

所以,这么多年来,你们一直在为他们提供算力,你们看到了行业的走向,而这些公司在几年前——某些情况下甚至一年前——的估值还只有现在的十分之一,而你们手头又有大把的现金。有一种可能是:NVIDIA 自己做基础模型实验室,或者进行巨额投资来推动这一方向,或者以远低于当前估值的价格更早完成这些投资。你们当时是有这个财力的。所以我很好奇,为什么当时没有那样做?

黄仁勋: 我们在能做的时候就已经做了。我们在能做的时候就已经做了,如果可以的话,我恨不得更早去做。在 Anthropic 需要我们出手的那个时候,我们还没有条件这么做,我们在心态上还没准备好。

Dwarkesh Patel: 怎么说呢?是资金方面的问题吗?

黄仁勋: 是的,主要是投资规模的问题。那时候我们从来没有对外投资过,而且投的金额也从来没有那么大。我们没意识到自己有这个必要。我一直觉得,他们完全可以像所有公司一样去找 VC(风险投资机构)融资嘛。但他们想做的事,靠 VC 根本做不到。OpenAI 想做的事,靠 VC 根本做不到。这一点我现在很清楚,但当时我不知道。

不过,这恰恰是他们的聪明之处,也是他们厉害的地方——他们当时就意识到必须走一条不同的路。对于这一切的发生,我感到很高兴。尽管正因为我们当时没有出手,Anthropic 才不得不转向别人,但我仍然为 Anthropic 的存在感到欣慰。Anthropic 的存在对这个世界是有益的,我为此感到高兴。

Dwarkesh Patel: 我想你们仍然在赚大钱,而且每个季度都在赚得越来越多。

黄仁勋: 有遗憾也没什么不对。

Dwarkesh Patel: 那问题就来了。好,现在我们处在这个位置,你们一直在不断赚钱,NVIDIA 应该拿这些钱做什么?有一个方向是:现在已经涌现出一套完整的"中间商"生态系统,专门帮助这些实验室把资本开支(CapEx)转化为运营开支(OpEx),让它们可以按需租用算力。因为这些芯片非常昂贵,但在整个生命周期内能创造巨大价值——随着 AI 模型越来越好,它们生成的每个 token(词元)的价值也在提升,只是前期建设成本很高。NVIDIA 完全有钱来承担这部分资本开支。事实上,据报道你们为 CoreWeave 提供了高达 63 亿美元的背书,另外还直接投资了 20 亿美元。

为什么 NVIDIA 不自己做云服务商?为什么不自己做 hyperscaler(超大规模云服务商),直接租出这些算力?你们完全有这个财力。

黄仁勋: 这是公司的一种经营哲学,而且我认为这个哲学是正确的——**做尽可能多的必要之事,同时做尽可能少的其他事情**。这句话的意思是:我们构建计算平台这件事,如果不是我们来做,我真的相信没有人会去做。如果不是我们冒这个险——如果我们没有按现在的方式去构建 NVLink(英伟达高速互连技术),没有搭建整个技术栈,没有像我们这样去打造生态系统,没有在大多数时间都在亏损的情况下坚持做了 20 年的 CUDA(英伟达并行计算平台)——如果我们没有做这些,没有人会去做。

如果我们没有创建所有这些面向特定领域的 CUDA-X 库……十五年前,我们就开始推进领域专用库,因为我们意识到,如果不去创建这些库——无论是用于光线追踪、图像生成,还是 AI 早期工作所需的库,这些模型所需的库,还是用于数据处理、结构化数据处理、向量数据处理的库——如果我们不去做,没有人会做。我对此确信无疑。我们创建了一个用于计算光刻的库,叫 cuLitho。如果不是我们做,没有人会做。所以,如果没有我们的付出,加速计算就不会有今天这样的发展。

所以我们应该做这件事。我们应该把公司所有的力量,全心全意地投入其中。但是,世界上不缺云服务商。就算我们不做,也会有人来做。遵循这个哲学——做必要之事,但尽可能少做其他——这个哲学在我们公司是切实存在的。我做的每一件事,都用这个视角来审视。

就云服务而言,如果我们不支持 CoreWeave(一家 AI 云计算公司)的存在,这些新兴云服务商,这些 AI 云平台,就不会存在。如果我们没有帮助 CoreWeave,它们就不会存在。如果我们没有支持 Nscale,它们今天就不会在这个位置上。如果我们没有支持 Nebius,它们也不会发展成现在这样。而现在,它们都做得非常好。

这是一种商业模式吗?(有些内容难以辨清)我们应该做尽可能多的必要之事,但尽可能少做其他。所以我们投资于我们的生态系统,因为我希望生态系统能够繁荣。我希望这个架构、这个 AI,能够触达尽可能多的行业、尽可能多的国家,让整个地球都能建立在 AI 之上,建立在美国科技栈之上。这个愿景正是我们正在追求的。

至于你提到的另一件事……有那么多出色、了不起的基础模型公司,我们尽力投资所有这些公司。这也是我们一直在做的事情:我们不押注赢家,我们需要支持所有人。这既是我们的乐趣所在,也是我们业务的内在需求。但我们也格外注意不去挑选赢家。所以,如果我投资其中一家,我就会投资所有家。

Dwarkesh Patel: 为什么你们特别注意不去挑选赢家?

黄仁勋: 第一,这不是我们的职责。第二,NVIDIA 最初起步时,当时有 60 家 3D 图形公司。而我们是唯一一家存活下来的。如果你当时看那 60 家图形公司,问哪一家能活下来,NVIDIA 会排在最不可能活下来的那个位置。

这是你那个年代之前的事了,但当时 NVIDIA 的图形架构恰恰是错误的,而且不是有一点点错,我们构建的架构是完全错误的,开发者根本无法支持它,这个架构注定是走不下去的。我们从正确的第一性原理出发推演,最后却得出了错误的解法。所有人都会把我们排除在局外。但我们还是走到了今天。

所以,我有足够的谦逊来认清这一点:不要去挑选赢家。要么让他们各凭本事,要么就照顾所有人。

Dwarkesh Patel: 有一件事我没太明白。你说过:"我们支持这些新兴云服务商,并不只是因为它们是新兴云服务商、我们想扶持它们。"但你同时又列举了一堆新兴云服务商,说如果没有 NVIDIA,它们就不会存在。这两件事怎么能并行不悖呢?

黄仁勋: 首先,它们要有想存在的意愿,是它们主动来找我们寻求帮助。当它们有意愿存在,并且有商业计划、有专业能力、有热情……它们自身显然也要具备一定的实力。但如果到最后,它们需要一些投资来启动,我们会伸出援手。不过,它们越早让自己的飞轮转起来越好。

你的问题是:"我们想不想做融资业务?"答案是不想。有人在做融资业务,我们宁愿和所有做融资业务的人合作,也不愿意自己变成一个融资方。我们的目标是专注于我们所做的事,让我们的商业模式尽可能简单,同时支持我们的生态系统。

当像 OpenAI 这样的公司在 IPO 之前还需要规模高达 300 亿美元的投资时,而我们又深深相信他们,我深信他们将会成为……好吧,他们今天已经是一家了不起的公司了,他们将来会成为一家令人叹为观止的公司。世界需要他们的存在,世界希望他们存在,我也希望他们存在。他们背后有强劲的风,让我们支持他们,让他们规模持续增长。这类投资我们会去做,因为他们需要我们。但我们并不是要做尽可能多,而是要做尽可能少。

Dwarkesh Patel: 这也许是个显而易见的问题,但我们已经在 GPU 短缺的处境中生活了很多年,而且随着模型越来越好,这种短缺还在加剧。

黄仁勋: 我们确实面临 GPU 短缺。

Dwarkesh Patel: 对。NVIDIA 在分配稀缺 GPU 时,据说不是单纯按出价高低来决定,而是会考量"我们希望确保这些新兴云服务商能够存在,所以给 CoreWeave 一些,给 Crusoe(AI 云计算公司)一些,给 Lambda(AI 云平台)一些"。这对 NVIDIA 有什么好处?首先,你认同这种"切分市场"的说法吗?

黄仁勋: 不,不。你的前提就是错的。我们对这类事情考虑得相当周全,非常周全。首先,如果你不下采购订单(PO),说再多也没用。在我们收到 PO 之前,我们能做什么呢?所以第一件事是,我们非常努力地与所有人一起做好预测,因为这些东西需要很长时间来生产,数据中心也需要很长时间来建设。我们通过预测来协调供需两端。这是第一要务。

第二,我们尽量与尽可能多的合作方一起做预测,但到最后,你还是得下订单。也许是出于某种原因,你当时没有下订单,那我能怎么办?到了某个节点,就是先来先得。但除此之外,如果你还没准备好,因为你的数据中心还没建好,或者某些配套设施还没到位,导致你无法搭建起数据中心,我们可能会决定优先服务另一位客户,这只是为了最大化我们自己工厂的产出效率,我们会做一些这样的调整。

除此之外,优先顺序就是先来先得,你必须下 PO。如果你不下 PO……当然,关于这方面也有各种故事在流传。比如说,所有这类传闻最初都源于一篇文章,说 Larry Ellison(甲骨文创始人)和 Elon Musk(马斯克)跟我共进晚餐,恳求我给他们 GPU。这件事根本没发生过。我们确实一起吃了晚餐,那是一顿非常愉快的晚餐。但他们从来没有恳求要 GPU,他们只需要下订单。一旦下了订单,我们就会尽全力给他们配足产能。我们没那么复杂。

Dwarkesh Patel: 好。所以听起来是有一个队列,然后根据你的数据中心是否就绪以及何时下了采购订单,你会在某个时间拿到货。但这听起来仍然不是出价最高者就能拿到。有什么理由要这样做……?

黄仁勋: 我们从不这样做。

Dwarkesh Patel: 好的。

黄仁勋: 从不。

Dwarkesh Patel: 为什么不按出价高低来决定呢?

黄仁勋: 因为这是一种糟糕的商业做法。你定好价格,然后让人们决定买不买。我知道芯片行业有些公司会在需求旺盛时提价,但我们从来不这样做,这从来都不是我们的做法。你可以信赖我们。我更愿意做一个可靠的基石,做行业的基础。你不需要去猜测。如果我报了你一个价,那个价格就是价格,就这样。就算需求爆棚,也是如此。

Dwarkesh Patel: 从另一个角度来说,这也是你们和 TSMC(台积电)之间关系牢固的原因,对吗?

黄仁勋: 是的,NVIDIA 和 TSMC 的合作,我想算起来快到 30 年了。NVIDIA 和 TSMC 之间没有法律合同。总是有一些粗略的"公平"在维系——有时我占便宜,有时我吃亏,有时我得到了更好的条件,有时条件没那么好。但总体而言,这段关系非常了不起。我完全信任他们,完全可以依赖他们。

关于 NVIDIA,有一点你可以确定:今年,Vera Rubin(英伟达新一代 GPU 架构)将会非常出色。明年,Vera Rubin Ultra 会来。后年,Feynman(下一代架构)会来。再后年,我还没公布名字。每一年,你都可以依赖我们。你可以去世界上找任何一支 ASIC(专用集成电路)团队——随便挑——然后问自己:"我能把所有家当押上、把整个公司的命运押上,说这支团队每一年都会在这里,他们的 token 成本每年都会降低一个数量级,这种确定性就像时钟一样准时吗?"

我刚才说了 TSMC 的事情。纵观历史上所有的晶圆代工厂,没有哪一家能让你这样说。但今天的 NVIDIA 可以。每一年,你都可以依赖我们。如果你想购买价值 10 亿美元的 AI 工厂算力,没问题;如果想购买 1 亿美元,没问题;想买 1000 万美元,或者只要一个机架,没问题;就要一块显卡,也没问题。如果你想下一笔 1000 亿美元的 AI 工厂订单,没问题。今天全世界只有我们一家公司可以说这种话。

我也可以这样描述 TSMC:想买一块,想买 10 亿块,没问题,只需要走一遍规划流程,做成熟的人该做的一切。我认为,NVIDIA 作为全球 AI 产业基石的这个位置,是我们花了几十年才走到的,需要巨大的投入,需要巨大的专注与奉献。我们公司的稳定性、我们的一贯性,这非常重要。


(原文时间戳:00:57:36)


Dwarkesh Patel:

好的,我想聊聊中国的话题。说实话,关于向中国出售芯片到底好不好,我自己也没有定论。但我喜欢在采访中扮演"魔鬼代言人"的角色,向嘉宾提出相反的观点。Dario 上节目时,他支持 export controls(出口管制),我就问他:"为什么美国和中国不能各自拥有一个数据中心里的天才国度?" 而你站在对立面,所以我要反过来问你。

有一种思考方式是:Anthropic 前几天刚宣布了 Mythos Preview(预览版)。这个叫 Mythos 的模型,他们甚至不打算公开发布,因为他们说它具备如此强大的 cyber-offensive capabilities(网络进攻能力),在确认所有 zero-days(零日漏洞)都被修补之前,他们认为世界还没准备好。他们说这个模型在所有主流操作系统、所有主流浏览器中发现了数千个高危漏洞,甚至在 OpenBSD——这个专门被设计为不含零日漏洞的操作系统——上也发现了一个存在了 27 年的漏洞。

那么问题来了:如果中国企业、中国实验室和中国政府能够获得 AI 芯片,来训练一个像 Claude Mythos 这样具备网络进攻能力的模型,并用更多算力运行数百万个实例,这对美国企业、美国国家安全来说是不是一种威胁?


黄仁勋:

首先,Mythos 是在相当普通的算力上、用相当普通的算量训练出来的——只是由一家非凡的公司训练的。用于训练它的算力规模和算力类型,在中国是完全可以获得的。所以你首先要认识到:中国是有芯片的。

他们制造了全球 60% 甚至更多的主流芯片,半导体是他们的重要产业。他们拥有一些世界顶尖的计算机科学家。正如你所知,所有这些 AI 实验室里的大多数 AI 研究员都是华裔。全球 50% 的 AI 研究人员在中国。所以问题是,考虑到他们已经拥有的这一切——充足的能源、大量的芯片、大多数 AI 研究人员——如果你担心他们,什么才是创造一个安全世界的最佳方式?

把他们当受害者、把他们推向敌对位置,很可能不是最好的答案。他们确实是对手。我们希望美国赢。但我认为,建立对话、建立研究层面的交流,才是最安全的做法。这正是我们目前由于把中国视为对手的态度而严重缺失的。我们的 AI 研究人员和他们的 AI 研究人员必须保持沟通,这至关重要。我们必须共同商定哪些用途是不能用 AI 来做的。

至于说在软件中发现漏洞——这本来就是 AI 应该做的事。AI 会发现很多软件漏洞吗?当然会。软件里有太多太多的漏洞,AI 软件本身也有很多漏洞。这就是 AI 的用途,我很高兴 AI 已经发展到可以让我们的生产力大幅提升的水平。

有一点常常被忽视,那就是围绕网络安全的生态系统有多么丰富——AI 网络安全、AI 安全性、AI 隐私保护、AI 安全。有一整套 AI 创业公司正在为我们创造这样一个未来:一个超强的 AI agent(智能体)运行着,周围有数千个 AI agent 守护它的安全、保障它的隐私。这样的未来一定会到来。

让一个 AI agent 在没有任何监督的情况下四处运行,这种想法本身就有点荒谬。我们深知这个生态系统需要蓬勃发展。事实证明,这个生态系统需要开源,需要开放模型,需要开放技术栈,这样所有这些 AI 研究人员和伟大的计算机科学家才能构建出同样强大、同时又能保持 AI 安全的系统。因此,我们必须确保开源生态系统保持活力。这一点不容忽视。而开源生态系统的很大一部分贡献来自中国。我们不应该扼杀它。

关于中国,我们当然希望美国拥有尽可能多的算力。我们受限于能源,但我们有很多人在解决这个问题。我们不能让能源成为我们国家的瓶颈。但我们同样希望,全世界所有的 AI 开发者都在美国技术栈上进行开发,让 AI 的贡献和进步——尤其是开源部分——能够为美国生态系统所用。如果造成两套生态系统的局面,一套开源生态系统只运行在外国技术栈上,一套封闭生态系统运行在美国技术栈上,这对美国来说将是极其糟糕的结果。


Dwarkesh Patel:

有很多东西需要梳理,让我先来理一理这个回应。我认为,回到关于黑客攻击算力差距的担忧——是的,他们有算力,但有一些估算认为,由于他们使用的是 7nm 制程——因为芯片制造方面的出口管制,他们没有 EUV(极紫外光刻机)——他们实际能生产的算力(flops)只有美国的十分之一。

所以,他们最终能不能训练出像 Mythos 这样的模型?可以,但问题在于,因为我们有更多的算力,美国实验室能够率先达到这些能力水平。因为 Anthropic 先到达了,他们说:"好,我们先保密一个月,让所有美国公司先获得访问权限,修补所有漏洞,然后我们再发布。"

再者,即使他们训练出这样的模型,大规模部署的能力也是一个问题。如果你有一个网络黑客,拥有一百万个和拥有一千个的危险程度完全不同。所以推理算力(inference compute)非常关键。事实上,他们拥有如此多优秀 AI 研究人员这件事本身就让人担忧,因为什么能让那些工程师和研究人员更有效率?就是算力。

与任何美国 AI 实验室交流,他们都说卡脖子的是算力。DeepSeek 创始人或者 Qwen(通义千问)领导层也有过类似的表态,说他们的瓶颈就是算力。那么问题来了:因为美国公司有更多算力,不是更好的结果吗——让他们率先达到 Mythos 级别的能力,在中国能赶上之前就让我们的社会做好准备?


黄仁勋:

我们当然应该永远保持领先,永远拥有更多算力。但要让你描述的那种结果成立,你必须把这件事推向极端。他们必须完全没有算力。如果他们有一些算力,那么问题就是:需要多少才足够?

中国现有的算力是巨大的。你说的是全球第二大计算市场。如果他们想整合算力,他们有足够多的算力可以整合。


Dwarkesh Patel:

但事实真是这样吗?人们做过这些估算,认为 SMIC(中芯国际)的制程节点其实是落后的。


黄仁勋:

我正要告诉你。


Dwarkesh Patel:

好的。


黄仁勋:

他们拥有的能源量令人难以置信。不是吗?AI 是一个并行计算问题,不是吗?如果能源是免费的,为什么他们不能把 4 倍、10 倍的芯片堆在一起呢?他们有大量能源,他们有完全空置、全功率运行的数据中心。你知道他们有"鬼城",他们也有"鬼数据中心"。他们有如此多的基础设施容量。如果他们想,他们完全可以把更多芯片堆在一起,哪怕是 7nm 的。

他们的芯片制造能力是全球最大之一。半导体行业都清楚,他们垄断着主流芯片。他们产能过剩,容量太多了。所以认为中国不会拥有 AI 芯片这种想法完全是无稽之谈。

当然,如果你问我:如果全世界都没有算力,美国会不会走得更远?但那根本不是一种现实结果,那种情景根本不存在。他们现在已经有了足够的算力。你所担心的那个阈值,他们早就超过了。

所以我认为你误解了一件事:AI 是一个五层蛋糕,最底层是能源。当你有充足的能源时,它可以弥补芯片的不足。如果你有充足的芯片,它可以弥补能源的不足。举个例子,美国的能源是稀缺的,这就是为什么 Nvidia 必须不断推进我们的架构,进行极致的协同设计——在我们交付的芯片数量有限、能源如此稀缺的情况下,让我们每瓦特的算力吞吐量达到极致。

但如果你的瓦特数完全充足、几乎免费,你还在乎每瓦特的性能吗?你有足够多的算力。你可以用老芯片来完成任务。所以,7nm 芯片本质上就相当于 Hopper(英伟达上一代架构)。Hopper 的能力……我必须告诉你,今天的模型大多数都是在 Hopper 这一代上训练的。所以 7nm 芯片绰绰有余。能源的充裕性是他们的优势。


Dwarkesh Patel:

但这里还有一个问题:他们能不能实际制造出足够多的芯片?


黄仁勋:

但他们可以。有什么证据吗?华为(Huawei)刚刚经历了公司历史上最好的一年。


Dwarkesh Patel:

他们出货了多少芯片?


黄仁勋:

大量。数百万颗。数百万远远超过 Anthropic 的拥有量。


Dwarkesh Patel:

还有一个问题,是关于 SMIC 能够生产多少逻辑芯片,以及多少内存芯片——


黄仁勋:

我就告诉你:他们有足够的逻辑芯片,也有足够的 HBM2(高带宽内存)。


Dwarkesh Patel:

是的。但正如你所知,训练和推理这些模型的瓶颈往往在于带宽。如果你用的是 HBM2……我手头没有具体数字,但和你们最新的产品相比,内存带宽可能相差近一个数量级,这影响是巨大的。


黄仁勋:

华为是一家网络公司。


Dwarkesh Patel:

但这并不能改变一个事实:最先进的 HBM 需要 EUV 才能制造。


黄仁勋:

这不对。完全不对。他们可以把多块堆叠在一起,就像我们用 NVL72 做的那样。他们已经展示了硅光子技术,把所有这些算力连接成一台巨型超级计算机。你的前提就是错的。

事实是,他们的 AI 发展进展顺利。世界上最优秀的 AI 研究人员,因为算力受限,他们也能想出极其聪明的算法。记得我刚才说过,摩尔定律每年进步约 25%。但通过出色的计算机科学,我们仍然可以将算法性能提升 10 倍。我的意思是,伟大的计算机科学才是最重要的杠杆所在。

毫无疑问,MoE(Mixture of Experts,专家混合模型)是一项伟大的发明。毫无疑问,各种出色的注意力机制减少了所需的算力。我们必须承认,AI 的大部分进步来自算法的突破,而不仅仅是原始硬件。如果大部分进步来自算法、计算机科学和编程,那你能说他们庞大的 AI 研究人员队伍不是他们根本性的优势吗?我们能看到这一点。DeepSeek 绝非无关紧要的进步。如果有一天 DeepSeek 在华为芯片上率先发布,那对我们国家来说将是一个可怕的结果。


Dwarkesh Patel:

为什么?因为目前 DeepSeek 这样的模型可以在任何加速器上运行,如果它是开源的。为什么未来就不会是这种情况?


黄仁勋:

假设它不再是这种情况。假设它被优化为运行在华为架构上。这将使我们处于劣势。你描述的是一种我认为是好消息的情况——一家公司开发了软件、开发了 AI 模型,它在美国技术栈上运行得最好。我把这看作好消息。你却把它当作坏消息的前提来设置。我来告诉你真正的坏消息:全世界各地开发的 AI 模型,都在非美国的硬件上运行得最好。那才是对我们的坏消息。


Dwarkesh Patel:

我只是没有看到证据说明,在切换加速器方面会存在如此巨大的障碍。美国实验室在所有云平台、所有不同的加速器上运行他们的模型——


黄仁勋:

我就是证据。你拿一个为 Nvidia 优化的模型,去别的平台上运行试试看。


Dwarkesh Patel:

但美国实验室就是这么做的。


黄仁勋:

而且运行效果并不会更好。Nvidia 的成功本身就是最好的证明。AI 模型在我们的技术栈上创建、在我们的技术栈上运行得最好——这有什么难以理解的?


Dwarkesh Patel:

Anthropic 的模型运行在 GPU(图形处理器)上,运行在 Trainium(亚马逊 AI 芯片)上,运行在 TPU(谷歌张量处理器)上。


黄仁勋:

要做到这一点需要付出大量工作。但去看看 global south(全球南方),去看看中东。开箱即用的情况下,如果所有 AI 模型在别人的技术栈上运行得最好,那你现在还在争辩说这对美国是好事,这个说法简直荒谬至极。


Dwarkesh Patel:

但我觉得我不理解这个论点。假设中国企业率先达到了下一个 Mythos 的水平。他们率先发现了美国所有软件的安全漏洞,但他们是在 Nvidia 硬件上做到的,并把它推向全球南方市场。他们是在 Nvidia 硬件上做到的。这怎么会是好事?好吧,它运行在 Nvidia 硬件上——


黄仁勋:

这不是好事。这不是好事。


Dwarkesh Patel:

对。


黄仁勋:

这不是好事。所以我们不能让这种事发生。


Dwarkesh Patel:

你为什么认为这件事可以完全替代——如果你不给他们算力,华为就会完全填补?他们是落后的,不是吗?他们的芯片比你的差。


黄仁勋:

完全……有现成的证据。他们的芯片产业规模巨大。


Dwarkesh Patel:

你看 H200 和华为 910C 之间的算力、带宽或内存对比,差距大概是二分之一到三分之一。


黄仁勋:

他们会用更多。他们会用两倍的量。


Dwarkesh Patel:

感觉你的论点是这样的:他们有充足的能源随时待用,而他们需要用芯片来填满这些能源。


黄仁勋:

而且他们擅长制造。


Dwarkesh Patel:

我相信他们最终能够超过所有人的制造能力。但有这么几个关键年份——


黄仁勋:

你说的关键年份是哪几年?


Dwarkesh Patel:

未来几年。我们将会有能够实施网络攻击的模型。


黄仁勋:

既然如此,如果未来几年是关键时期,那么我们就必须确保,在这几个关键年份里,全世界所有的 AI 模型都建立在美国技术栈上。


Dwarkesh Patel:

如果它们建立在美国技术栈上,这怎么能阻止中国在拥有更先进能力后发动相当于 Mythos 的网络攻击呢?


黄仁勋:

两种情况都没有保障。


Dwarkesh Patel:

但如果我们率先拥有它,我们就可以提前做好准备。


黄仁勋:

听着,你为什么要让 AI 产业的某一层为了另一层的利益而放弃整个市场?AI 有五个层次,每一层都必须成功。最需要成功的其实是 AI 应用层。你为什么如此执着于那个 AI 模型?那一家公司?理由是什么?


Dwarkesh Patel:

因为那些模型使这些极其强大的进攻性能力成为可能,而运行它们需要算力。


黄仁勋:

能源、芯片和 AI 研究人员生态系统共同造就了这种可能。


Dwarkesh Patel:

好,退一步说,这必然要基于一个前提——中国能够建造足够多的 7nm 产能。而且请记住,他们还停留在 7nm,而你将迈向 3nm,然后是 2nm 或 1.6nm 的 Feynman(费曼,英伟达新一代架构)。所以当你走到 1.6nm 的时候,他们几年后可能还在 7nm,他们必须生产足够多来弥补差距。他们有这么多能源随时待用,你给他们的芯片越多,他们的算力就越多。所以归根结底,他们是在获得更多算力。算力是训练和推理的投入——


黄仁勋:

听着,我认为你说话太绝对了。我认为美国应该领先。美国的算力是世界上其他任何地方的 100 倍。美国应该领先。美国确实领先。

Nvidia 打造了最先进的技术。我们确保美国实验室是第一批听到消息、第一批有机会购买的。如果他们钱不够,我们甚至会投资他们。美国应该领先。我们要尽一切努力确保美国领先。第一点,你同意吗?我们正在做一切我们能做的。


Dwarkesh Patel:

但是,如果他们的算力是瓶颈,那么向中国出售芯片又怎么能让美国保持领先呢?


黄仁勋:

不对不对。我们有 Vera Rubin(英伟达新一代架构)专属于美国。我们有 Vera Rubin 给美国用。现在,我算不算美国的一部分?你认为我是美国人吗?


Dwarkesh Patel:

是的。


黄仁勋:

Nvidia。你认为 Nvidia 是美国公司吗?好。第一点,为什么我们不能制定一个更平衡的法规,让 Nvidia 能在全世界赢得竞争,而不是放弃整个世界?为什么你想让美国放弃整个世界?

芯片产业是美国生态系统的一部分,是美国技术领导力的一部分,是 AI 生态系统的一部分,是 AI 领导力的一部分。为什么你的政策、你的理念,会导致美国放弃世界市场的很大一部分?


Dwarkesh Patel:

我想这里的关键在于……Dario 有一句话,他说这就像波音(Boeing)吹嘘说我们在向朝鲜出售核弹,但导弹外壳是波音制造的,这就不知怎么地支持了美国技术栈。从根本上说,你是在把这种能力给了他们。


黄仁勋:

把 AI 比作你刚才提到的任何东西,简直是疯话。


Dwarkesh Patel:

但 AI 类似于浓缩铀(enriched uranium),不是吗?它可以用于正当用途,也可以用于负面用途。我们仍然不想把浓缩铀送给其他国家。


黄仁勋:

谁在发送浓缩——


Dwarkesh Patel:

这个类比的意思是,浓缩铀就相当于算力。


黄仁勋:

这是个糟糕的类比。这是个不合逻辑的类比。


Dwarkesh Patel:

但是,如果这些算力能够运行可以对所有美国软件进行零日漏洞攻击的模型,这怎么不算一种武器?


黄仁勋:

首先,解决这个问题的方法是与研究人员对话、与中国对话、与所有国家对话,确保人们不会以那种方式使用技术。这是必须发生的对话。好的,第一点。

第二点,我们还需要确保美国保持领先——Vera Rubin、Blackwell(英伟达现代架构)要在美国大量存在,堆积如山。我们的成绩有目共睹:算力充足,数量庞大。我们拥有的算力很棒,我们有优秀的 AI 研究人员。太好了。我们应该保持领先。

然而,我们也必须认识到,AI 不仅仅是一个模型。AI 是一个五层蛋糕。AI 产业在每一层都很重要,我们希望美国在每一层都赢,包括芯片层。放弃整个市场不会让美国在芯片层、在计算技术栈上长期赢得技术竞赛。这只是事实。


Dwarkesh Patel:

我想问题的关键在于……向他们卖芯片现在怎么能帮助我们长期赢?特斯拉(Tesla)向中国销售了很长时间的极好的电动车。iPhone 也在中国出售,非常好。但这些并没有造成锁定效应。中国仍然做出了他们自己的电动车版本,而且正在主导市场。他们的智能手机也在主导市场。


黄仁勋:

当我们今天开始谈话时,你承认了 Nvidia 的地位非常不同。你用了"护城河"(moat)这样的词。对我们公司最重要的一件事是我们生态系统的丰富性,而这涉及的是开发者。50% 的 AI 开发者在中国。美国不应该放弃这一点。


Dwarkesh Patel:

但我们在美国有很多 Nvidia 开发者,而这并不妨碍美国实验室在未来使用其他加速器。事实上,他们现在也在使用其他加速器,这没什么问题,也很好。我不明白为什么中国就不是这种情况——如果你向他们出售 Nvidia 芯片,就像谷歌可以同时使用 TPU 和 Nvidia 一样——


黄仁勋:

我们必须不断创新,正如你可能知道的,我们的市场份额在增长,而不是在下降。你假设即使我们在中国参与竞争,我们无论如何也会失去那个市场……你谈话的对象不是一个以失败者心态醒来的人。那种失败主义的态度、那种失败者的前提,对我来说毫无意义。

我们不是汽车。我们不是汽车。你可以今天买这个品牌的车,明天换另一个品牌,很容易。计算不是这样的。x86 协议之所以存在是有原因的。ARM 之所以如此"粘性"是有原因的。这些生态系统很难被替代。这需要花费大量的时间和精力,而且大多数人不愿意这么做。所以我们的工作就是继续培育这个生态系统,不断推进技术,以便我们能在市场上持续竞争。

基于你所描述的前提而主动放弃一个市场——我就是无法认同。这毫无道理。因为我不认为美国是失败者。我们的产业不是失败者。那种失败主义的命题、那种失败者的心态,对我来说毫无意义。


Dwarkesh Patel:

好的,我们换个话题。我只想确保——


黄仁勋:

不用换。我很享受这个讨论。


Dwarkesh Patel:

好,太好了。那就不换。我很感激。但我认为问题的关键也许在于……谢谢你陪我一起绕圈子,因为我认为这有助于揭示关键所在。


黄仁勋:

关键是你走向了极端。你的论点从极端出发。你认为,如果我们在这个狭窄的时间窗口里给他们任何算力,我们就会失去一切。


Dwarkesh Patel:

不,我认为我的论点是——


黄仁勋:

那种极端论断,是幼稚的。


Dwarkesh Patel:

让我来陈述自己的论点。这个想法不是说存在某个关键的算力阈值。而是说,任何边际增量的算力都是有帮助的。如果你有更多算力,你就能训练出更好的模型。


黄仁勋:

那我也希望你承认,对美国技术产业来说,任何边际增量的销售都是有益的。


Dwarkesh Patel:

我实际上并不……如果那些芯片上运行的 AI 模型能够执行网络进攻,或者这些芯片正在训练具有网络能力的模型并运行更多模型实例,它不是核武器,但它赋能了一种武器。


黄仁勋:

按照你的逻辑,你也可以同样地说微处理器和 DRAM(动态随机存储器)。你也可以同样地说电力。


Dwarkesh Patel:

但我们实际上确实对制造最先进 DRAM 所需的相关技术实施了出口管制。我们对中国的各种芯片制造设备实施了各种出口管制。


黄仁勋:

我们向中国出售了大量 DRAM 和 CPU,我认为这是正确的。


Dwarkesh Patel:

我想这回到了一个根本问题:AI 是否与众不同?如果你拥有能够发现软件零日漏洞的那种技术,我们是否应该尽量减少中国率先获得它、广泛部署它的能力?


黄仁勋:

我们希望美国保持领先。我们能做到这一点。


Dwarkesh Patel:

如果芯片已经在那里,他们正在用这些芯片来训练那个模型,我们怎么做到这一点?


黄仁勋:

我们有大量算力,我们有大量 AI 研究人员,我们正在以最快的速度奔跑。


Dwarkesh Patel:

再说一遍,我们拥有的核武器比任何人都多,但我们不想向任何地方发送浓缩铀。


黄仁勋:

我们不是浓缩铀。这是一块芯片,而且是他们自己能造的芯片。


Dwarkesh Patel:

但他们向你购买是有原因的。我们有来自中国公司创始人的引用,说他们的瓶颈就是算力。


黄仁勋:

因为我们的芯片更好。总体而言,我们的芯片确实更好,这毋庸置疑。在没有我们的芯片的情况下……你能承认华为创了记录年份吗?你能承认一大批芯片公司已经上市了吗?你能承认这些吗?


Dwarkesh Patel:

可以。


黄仁勋:

你能不能也承认,我们曾经在那个市场占有很大的份额,而现在已经没有了?我们也可以承认,中国约占全球技术产业的 40%。对于美国技术产业来说,让出那个市场是对我们国家的伤害,是对我们国家安全的伤害,是对我们技术领导地位的伤害,而这一切只是为了某一家公司的利益。这对我来说完全没有道理。


Dwarkesh Patel:

我想我有点搞不清楚了。感觉你在说两件不同的事。一方面,你说如果允许与华为竞争,我们能赢,因为我们的芯片会好得多。另一方面,你说反正他们没有我们也会做同样的事。这两件事怎么能同时成立?


黄仁勋:

显然可以同时成立。在没有更好选择的情况下,你会选择你唯一拥有的选择。这有什么不合逻辑的?这再合逻辑不过了。


Dwarkesh Patel:

他们想要 Nvidia 芯片的原因是它更好。


黄仁勋:

是的。


Dwarkesh Patel:

更好意味着更多算力。更多算力意味着你能训练出更好的模型。


黄仁勋:

不,就是更好。更好是因为更容易编程,我们的生态系统更好。但不管"更好"是什么意思……当然,我们会向他们出售算力。那又怎样?事实是,我们从中获益。别忘了,我们获得了美国技术领导力的好处。我们获得了开发者在美国技术栈上工作的好处。我们获得了这样一个好处:当那些 AI 模型向世界其他地方扩散时,美国技术栈就是最适合它们运行的。我们可以继续推进和传播美国技术。我认为这是积极的,是美国技术领导力非常重要的一部分。

而且,你所倡导的那些政策,导致美国电信产业基本上被政策逐出了全球市场,以至于我们现在不再掌控自己的电信产业了。我不认为那是明智之举。这有点目光短浅,而且已经导致了我正在向你描述的意想不到的后果——这些你似乎很难理解。


Dwarkesh Patel:

好的,让我们退后一步。看起来问题的关键在于,有潜在的好处,也有潜在的成本。我们正在讨论的是,好处是否值得付出这个成本。我想让你承认潜在的成本。算力是训练强大模型的投入。强大的模型确实具有强大的进攻能力,比如网络攻击。美国公司率先达到 Mythos 级别的能力是一件好事,现在他们要先保留这些能力,让美国公司和美国政府在那个能力等级被公布之前让自己的软件更加安全。

如果中国拥有更多算力,或者更多的群体算力,能够更早训练出 Mythos 级别的模型并广泛部署,那将非常糟糕。之所以还没有发生这种情况,原因之一就是由于 Nvidia 这样的公司,我们在美国有更多算力。这就是向中国出售芯片的成本所在。所以先把好处放在一边,你承认这是一种潜在成本吗?


黄仁勋:

我也来告诉你潜在的成本:我们让 AI 技术栈中最重要的层之一——芯片层——放弃了整个市场,即全球第二大市场,这样他们就能够发展规模,发展自己的生态系统,使未来的 AI 模型以与美国技术栈截然不同的方式进行优化。随着 AI 向世界其他地方扩散,他们的标准、他们的技术栈将超越我们的,因为他们的模型是开放的。


Dwarkesh Patel:

我想我对 Nvidia 的内核工程师和 CUDA 工程师有足够的信心,认为他们能够优化——


黄仁勋:

AI 不只是内核优化,你知道的。


Dwarkesh Patel:

当然,但从模型蒸馏到为你的芯片量身定制,有很多事情可以做。


黄仁勋:

我们会尽力而为。


Dwarkesh Patel:

你拥有所有的软件。很难想象,即使他们在某段时间内拥有一个稍好的开源模型,也会在中国生态系统中形成长期锁定。


黄仁勋:

中国是全球最大的开源软件贡献者。这是事实。中国是全球最大的开放模型贡献者。这是事实。而今天,这一切都建立在美国技术栈、Nvidia 技术栈上。这是事实。

AI 技术栈的所有五个层次都很重要。美国应该赢得所有五个层次。每一层都很重要。当然,最重要的是 AI 应用层——那个扩散到社会中的层次,使用最多的人从这场工业革命中受益最多。但我的观点是,每一层都必须成功。

如果我们把整个国家吓得认为 AI 就像一颗核弹,让所有人都厌恶 AI、害怕 AI,我不知道你怎么能说是在帮助美国。这是在伤害美国。如果我们把所有人都吓出软件工程师的队伍,因为觉得 AI 会取代所有软件工程工作,结果我们就没有任何软件工程师了,那是在伤害美国。

如果我们把所有人都吓出放射科,没人想成为放射科医生,因为计算机视觉完全免费、没有 AI 会比放射科医生做得更差——那就是误解了职业和任务之间的区别。放射科医生的职业是病人护理;任务是读取扫描结果。如果我们对此有如此深刻的误解,把所有人都吓得不去读放射科专业,我们就不会有足够的放射科医生,医疗质量也会下降。

所以我想说明的是,当你提出如此极端的前提,让一切要么是零、要么是无穷大时,我们会以一种根本不真实的方式吓到人们。生活不是这样的。我们希望美国第一吗?当然。我们需要在那个技术栈的每一层都保持领先吗?当然,当然。今天你谈到 Mythos,因为 Mythos 很重要。没错,这很了不起。

但再过几年,我要向你做出这个预言:当我们希望美国技术栈被推广、美国技术扩散到世界各地——扩散到印度、中东、非洲、东南亚——当我们的国家想要出口,因为我们想出口我们的技术,我们想输出我们的标准,在那一天,我希望你和我再次进行这样的对话。我会把今天这段对话一字不差地告诉你,告诉你你的政策、你的设想,是如何实际上导致美国毫无必要地放弃了全球第二大市场。

我们不应该放弃它。如果我们在竞争中失去它,那就失去了。但为什么我们要主动放弃?现在没有人在倡导全有或全无。没有人倡导全有或全无——也就是说,我们随时把所有东西都运给中国。没有人这么主张。我们应该始终保证美国拥有最好的技术,始终保证美国第一个拥有最多的技术。但我们也应该努力在全球各地竞争和获胜。这两件事可以同时发生。这需要一定程度的细致入微,需要一定程度的成熟,而不是非黑即白的绝对论断。世界本来就不是非此即彼的。


Dwarkesh Patel:

好的。这个论点有一个关键假设。他们在几年内为他们制造的最好芯片建立了专门优化的模型。那些芯片被出口到世界各地,确立了标准。因为有 EUV 出口管制,正如我们所说,你将迈向 1.6nm,而他们几年后仍然停留在 7nm。

在国内也许有道理——"嘿,我们有这么多能源,可以大规模制造,我们就继续用 7nm。" 但在出口这件事上,他们的 7nm 芯片必须与你的 1.6nm 芯片竞争。他们的模型必须被优化到如此程度,以至于在 7nm 上运行他们的模型比在你的 1.6nm 上运行更好。


黄仁勋:

那我们就来看事实吧。Blackwell 比 Hopper 的光刻工艺先进 50 倍吗?50 倍?差远了。我一再说过这个。摩尔定律已死。从 Hopper 到 Blackwell,仅从晶体管本身来看,大约是 75%。两者相差三年,75% 的提升。而 Blackwell 是 Hopper 的 50 倍性能。

我的观点是,架构很重要。计算机科学很重要。半导体物理也很重要,但计算机科学同样重要。AI 的影响在很大程度上来自计算技术栈,这就是为什么 CUDA(英伟达并行计算平台)如此有效,为什么 CUDA 如此受人喜爱。它是一个计算架构和生态系统,允许如此大的灵活性,以至于如果你想完全改变一个架构——创造类似 MoE 的东西,创造类似扩散(diffusion)的东西,创造类似解耦(disaggregated)的东西——你都可以做到,而且很容易。

所以事实是,AI 关乎上层的技术栈,就像它关乎下层的架构一样。在我们的技术栈和生态系统经过优化的前提下,这显然是好事,因为我们今天对话的开头就讲到了 Nvidia 生态系统有多么丰富。为什么人们总是最喜欢先在 CUDA 上编程?他们确实如此。中国的研究人员也不例外。

但如果我们被迫离开中国,如果我们被迫离开中国,首先这是一个政策错误。显然,这会产生反弹效应。事实证明这对美国不利。它使他们的芯片产业得到了赋能、加速。它迫使他们整个 AI 生态系统专注于他们自己的内部架构。现在还不算太晚,但这一切已经发生了。

你将来会看到,他们不会永远停留在 7nm,这是显而易见的。他们擅长制造,他们会继续从 7nm 向前推进。现在,5nm 和 7nm 之间有 10 倍的差距吗?答案是没有。架构很重要。网络互联很重要。这就是为什么 Nvidia 收购了 Mellanox(网络芯片公司)。网络互联很重要。能源很重要。所有这些因素都很重要。这并不像你试图简化的那样简单。


Dwarkesh Patel:

中国的话题我们可以先告一段落,但这其实引出了一个有趣的问题。我们之前谈到了台积电(TSMC)和内存等方面的瓶颈。

那么,如果在这样的世界里——你们已经占据了N3(台积电3纳米制程)产能的大头,将来N2(2纳米制程)也会如此——你是否考虑过回头利用N7(7纳米制程)的闲置产能?也就是说,"AI的需求如此旺盛,而我们在先进制程上的产能扩张跟不上需求,所以我们打算基于现有的数值精度知识和你刚才描述的各种改进,重新制造一款Hopper(英伟达GPU架构)或Ampere(英伟达GPU架构)"?你认为2030年之前会出现这种情况吗?

黄仁勋:

其实没有必要这样做。原因在于,每一代架构的价值远不止于晶体管的缩放。我们在工程、封装、叠层、数值精度以及系统架构上都付出了大量心血。

当产能告急时,轻易回退到旧制程节点……那需要的研发投入是任何公司都难以承受的。我们能负担得起向前冲,却未必能负担得起向后退。当然,如果有一天世界告诉我们:"听着,你们永远不会有更多产能了。"那我会毫不犹豫地回去用7nm(7纳米)。

Dwarkesh Patel:

有人问过我一个问题:NVIDIA为什么不同时推进多个采用完全不同架构的芯片项目?比如做一个Cerebras(AI芯片公司)风格的晶圆级芯片,或者做一个Dojo(特斯拉自研AI训练芯片)风格的超大封装,或者做一个不依赖CUDA(英伟达并行计算平台)的方案。你们有资源、有人才,完全可以并行推进这些项目。那为什么要把鸡蛋放在同一个篮子里?毕竟AI发展方向和芯片架构走向都充满未知。

黄仁勋:

我们当然可以做。只是目前没有更好的方案。那些路线我们都能走,只是效果不如现有方向。我们在模拟器里都仿真过,结果明显更差。所以我们不会那么做。我们现在做的,正是我们认为值得做的事情。如果工作负载发生了根本性的变化——我说的不是算法,而是真正的工作负载形态,这取决于市场结构——我们可能会考虑增加其他加速器方向。

举个例子,最近我们引入了Groq(AI推理芯片公司),并且正在把Groq整合进我们的CUDA生态系统。我们之所以这样做,是因为token(推理单元)的价值已经大幅提升,现在可以对token实行差异化定价。就在几年前,token要么是免费的,要么几乎不值钱。但现在,不同客户有不同需求,他们愿意为不同的服务付费。因为某些客户能创造很高的价值——比如我们的软件工程师——如果我能给他们提供响应更快的token,让他们的生产力进一步提升,我愿意为此付出更高的成本。

不过这个市场是最近才兴起的。所以我认为我们现在有机会针对同一个模型,按响应时间划分出不同的细分市场。这正是我们决定拓展帕累托前沿(Pareto frontier,性能与效率的最优权衡曲线)、开辟一个更注重低延迟而非高吞吐量的推理细分市场的原因。过去,更高吞吐量始终是优先目标。但我们认为,未来可能存在一个高ASP(平均售价)token的市场,即便工厂层面的吞吐量较低,ASP也足以弥补这一差距。

这就是我们这样做的理由。但从架构的角度来说,如果资金更充裕,我会把更多钱投入到NVIDIA自己的架构上。

Dwarkesh Patel:

我觉得这个"超高价值token"的概念,以及推理市场的分层化,是个非常有意思的方向。

黄仁勋:

是的,就是市场的细分化。

Dwarkesh Patel:

对。好,最后一个问题。假如深度学习革命从未发生,NVIDIA会在做什么?显然游戏业务还会有,但——

黄仁勋:

还是加速计算(accelerated computing),跟我们一直以来做的一样。我们公司的核心立场是:摩尔定律(Moore's law)总有一天会……通用计算能做很多事,但对大量计算任务来说并不理想。

所以我们把GPU(图形处理器)架构、CUDA与CPU(中央处理器)结合起来,加速CPU的工作负载。不同的代码内核或算法可以被卸载到GPU上运行。因此,一个应用程序的速度可以提升100倍、200倍。这能用在哪里?显然包括工程、科学、物理、数据处理、计算机图形学、图像生成等各个领域。即使AI今天不存在,NVIDIA也会是一家非常非常大的公司。

原因相当根本——通用计算的持续扩展能力已基本到达瓶颈。突破这一瓶颈的方式,不是唯一,但行之有效的是领域专用加速(domain-specific acceleration)。我们起步的领域之一是计算机图形学,但还有许多其他领域:粒子物理、流体力学、结构化数据处理,各种各样受益于CUDA的算法。

我们的使命,是把加速计算带给全世界,推动那些通用计算无法完成的应用,将计算能力提升到能够突破特定科学领域瓶颈的水平。早期的一些应用包括分子动力学、用于能源勘探的地震处理、图像处理,以及其他诸多通用计算效率过低而无法胜任的领域。

如果没有AI,我会非常遗憾。但正是因为我们在计算领域取得的进步,我们推动了深度学习的普及。我们让任何研究人员、任何科学家、任何地方的任何学生,都能通过一台PC或一块GeForce(英伟达消费级显卡)做出了不起的科研成果。这个根本承诺从未改变,一点都没有。

如果你看过GTC(英伟达年度开发者大会),会发现开场部分全部不涉及AI——计算光刻(computational lithography)、量子化学研究、数据处理……这些内容都和AI无关,却依然非常重要。我知道AI很吸引眼球,也令人振奋,但有很多人正在做许多非常重要的非AI工作,而张量(tensor)也并不是唯一的计算方式。我们希望帮助到每一个人。

Dwarkesh Patel:

Jensen,非常感谢你。

黄仁勋:

不客气,我很享受这次对话。

Dwarkesh Patel:

我也是。

#