首页 行业资讯 文章详情

【三万字全文图解】黄仁勋GTC大秀:算力狂飙 4000 万倍!AI 操作

发布日期:2026-05-28 10:04
|未经许可不得转载🌟星标本号获取最新顶级认知|

 

图片

整理:Web3天空之城

城主说|在今天凌晨举行的万众瞩目的GTC 2026大会主题演讲里,NVIDIA 创始人兼首席执行官黄仁勋展示了从加速计算、生成式 AI 到代理式 AI(Agentic AI)和物理 AI 的全面技术路线图。大会重点介绍了 Vera Rubin 架构、专门针对推理优化的 Groq 技术、开源代理系统框架 OpenClaw,以及通过 Omniverse 构建数字孪生 AI 工厂。NVIDIA 强调其作为垂直整合但水平开放的计算平台公司,正致力于通过不断降低 Token 生成成本,驱动全球数万亿美元产业的智能化转型。

0:00:03 加速计算的起源、飞轮效应与CUDA生态二十年

0:15:59 结构化数据革命与全球加速云平台合作

0:29:57 垂直整合架构与多行业AI应用解决方案

0:43:01 推理时代的拐点与万亿美元算力市场前景

1:00:51 通往Vera Rubin之路:计算平台演进与液冷硬件展示

1:20:19 AI工厂运营逻辑与Token经济效益最大化

1:33:58 未来技术路线图与DSX数字孪生工厂蓝图

1:46:14 OpenClaw:开启代理式AI操作系统新时代

1:57:20 NVIDIA开放模型生态与全球主权AI战略

2:06:21 物理AI与机器人技术:从自动驾驶到具身智能

图片

核心观点

  • • 推理拐点的到来:AI 已从训练阶段跨越到推理领域,推理需求增加了约 10,000 倍,计算已从检索式转变为生成式。
  • • 全新硬件架构:Vera Rubin 平台通过液冷技术、NVLink 72、Vera CPU 以及 Groq 令牌加速器,实现了相比前代巨大的性能和能效飞跃。
  • • Token 经济学:AI 工厂的产出即 Token,Token 正在成为一种全新的商品,其生产成本和生成速度决定了企业的竞争力。
  • • 代理式操作系统:OpenClaw 标志着代理式计算时代的开始,它作为一种新型的操作系统,使每一家软件公司都能转型为智能体服务公司。
  • • 物理 AI 的爆发:自动驾驶和具身智能机器人迎来了“GPT 时刻”,NVIDIA 通过 Isaac Lab 和 Cosmos 等工具构建了机器人训练的闭环。
  • • “推理拐点已经到来,我们正从训练阶段跨越到推理领域,计算已从检索式转变为生成式。”
  • • “Token正在成为一种全新的商品。人工智能工厂的产出即Token,其生产成本和速度将决定企业的核心竞争力。”
  • • “英伟达是垂直整合但水平开放的。我们必须深入了解算法,才能在每个库、每个领域实现极限优化。”
  • • “每一家软件公司都将转型为智能体服务公司,代理式操作系统将开启企业级计算的复兴。”
  • • “物理人工智能正迎来其‘生成式预训练模型时刻’,自动驾驶和具身智能机器人将彻底重塑劳动力市场。”

推理拐点:从信息检索到智力生成的跨越

在黄仁勋看来,计算的本质正在发生翻天覆地的变化。过去,我们依赖计算机检索已有的数据;而现在,人工智能正在实时生成前所未有的知识。“我们已经到达了一个转折点。人工智能不仅能够感知和认知,它现在必须能够进行推理和思考。” 这一转变意味着对算力的需求不再仅仅集中在早期的模型训练上,而是转向了日常的、高频的推理任务。

这种需求的激增是指数级的。黄仁勋指出,为了让智能体能够反思、规划和自我验证,所需的计算量增加了约一万倍。“推理的拐点已经到来。人工智能现在需要通过推理来读取信息、解决问题并实际执行任务。这意味着我们过去两年感受到的算力短缺,仅仅只是更大规模浪潮的序幕。” 他预测,到2027年,这一市场的规模将至少达到一万亿美元。

Token经济学:人工智能工厂的生产逻辑

英伟达正在重新定义“工厂”的概念。在黄仁勋的愿景中,未来的数据中心不再是存放文件的仓库,而是生产“Token”的现代化工厂。“Token是人工智能的构建基块,它们将数据转化为知识。Token的生产速率和成本,就是未来企业的生命线。”

为了优化这一生产流程,英伟达推出了“vera rubin”平台和专门针对推理优化的加速器。这种设计能够让工厂在消耗相同电力的情况下,产出更多的Token。“如果你在受功率限制的基础设施中运营,你必须确保每一瓦特都能产生最大的Token吞吐量。英伟达的架构能将Token生成成本降低到世界级水准,因为我们采用了极致的代码和硬件协同设计。” 这种“工厂经济学”将直接导向企业的营收,使智能成为一种可以大规模量产的商品。

软硬结合的护城河:垂直整合与水平开放

英伟达之所以能在激烈的竞争中保持领先,源于其独特的商业哲学。黄仁勋强调,英伟达是一家垂直整合的计算公司,但同时保持水平方向的开放。“加速计算并非单纯的芯片问题,它必须理解应用和领域。我们必须深入每一个算法,将其重构并转化为库,才能释放算力的全部潜力。”

这种垂直整合能力让英伟达能够推出多达上千个专用库,涵盖从生物医药、金融交易到量子计算的各个领域。与此同时,英伟达将这些能力开放给全球的云服务商和设备制造商。“我们与云服务提供商的关系本质上是我们为他们带来客户。我们集成自己的库,加速工作负载,确保英伟达的基础设施在全球任何地方都能充满信心地部署。” 这种“飞轮效应”通过庞大的装机量吸引开发者,进而产生更多突破性算法,最终不断降低计算成本。

代理式计算:开源操作系统开启的产业复兴

谈到软件的未来,黄仁勋对开源项目“开放之爪”表现出了极大的热情。他认为,这标志着代理式计算时代的正式开启。“‘开放之爪’本质上是代理式计算机的操作系统。它连接资源、调用模型、调度任务,就像视窗系统之于个人电脑一样。”

在这一背景下,每一家软件公司都将进化为代理驱动型企业。黄仁勋预测,未来的工程师不仅拥有基本薪资,还将拥有一份年度“Token预算”,以利用人工智能代理实现十倍的生产力提升。“这是一场企业计算的复兴。我们将从为人类提供工具,转变为提供能够租用的智能体。每一家软件服务公司都将成为智能体服务商,这将开启一个数万亿美元的新市场。” 为了确保这一过程的安全,英伟达还推出了带有安全防护栏的企业级参考设计,保护企业的敏感数据在代理交互中不受侵害。

物理人工智能:具身智能的“生成式预训练模型时刻”

最后,黄仁勋将目光投向了物理世界。他认为,机器人和自动驾驶已经迎来了属于它们的爆发时刻。通过数字孪生平台,英伟达能够在虚拟世界中训练机器人,解决物理世界数据不足的痛点。“现实世界的数据永远不足以训练出应对每一种场景的模型。我们需要由人工智能和仿真技术生成的海量合成数据。对于机器人而言,算力即数据。”

从迪斯尼的仿真机器人到奔驰、比亚迪的自动驾驶系统,物理人工智能正在从实验室走向生产线和街道。“我们正处于物理人工智能和机器人技术的时代。车辆现在具备了推理能力,能够解释其思考过程并遵循复杂指令。” 黄仁勋展示了通过这种方式训练出的机器人如何完美地适应复杂的物理环境,预示着一个由具身智能协作的未来工厂即将成为现实。


图片

图片

图片

图片

图片

图片

图片

 该图片疑似AI生成图片

图片

图片

图片

图片


天空之城全文整理版


序章:Token 与智能制造

这就是智能的制造方式。一种全新的工厂。

Token 的生成器,即 AI 的构建基块。Token 开辟了新的前沿,将数据转化为知识,并借鉴了我们所学的一切。

Token 正在驾驭新一波清洁能源,并揭示恒星的秘密。

在虚拟世界中,它们帮助机器人学习。而在物理世界中,它们表现完美。开辟新的道路。并为丰收扫清障碍。

在关键时刻,Token 已经身处其中。

而在漫长的旅途中,它们从未停歇。在人力所不能及之处。让我们都能更从容地呼吸。让最微小的心脏也能跳动得更有力。Tokens 正在帮助我们开拓新领域。

以一种从未尝试过的规模,为世界赋能。

从而让我们能够触及……Stargate One,分离确认。远超于此。我们携手迈向光明的未来,开启下一个伟大飞跃。

为全人类而造。

而这一切正是从这里开始的。

欢迎 NVIDIA 创始人兼首席执行官 Jensen Huang 登台。


GTC 开幕:技术、平台与生态系统

欢迎来到 GTC!我只想提醒大家,这是一场技术会议。看到大家这么早就排起长队,看到在座的各位,真的很高兴。

GTC。在 GTC,我们要讨论的是技术。要讨论的是平台。NVIDIA 有三个平台。主要讨论的是其中之一。它与 CUDA-X 有关。我们的系统是另一个平台,现在我们有了名为 AI Factories 的新平台。我们将逐一讨论这些内容,最重要的是讨论生态系统。

但在开始之前,请允许我感谢我们的赛前节目主持人。

他们做得非常出色。来自 Conviction 的 Sarah Guo。来自 Sequoia Capital 的 Alfred Lin。NVIDIA 的首位风险投资家 Gavin Baker,NVIDIA 的首位大型机构投资者。这三位人士对技术有着深厚的造诣,对行业动态有着深刻的洞察,在技术生态系统方面也拥有极其广泛的影响力。

还有我亲自挑选加入今天全明星团队的所有贵宾。感谢你们所有人的到来。还要感谢所有来到现场的公司。

NVIDIA 是一家平台型公司。

我们拥有技术,拥有平台,并且拥有丰富的生态系统。今天,这里可能汇聚了价值 100 万亿美元产业中的 100%。共有 450 家公司赞助了本次活动。向你们致谢。

这里有 1000 场技术会议,2000 位演讲嘉宾。

本次大会将涵盖人工智能五层架构中的每一个环节。从土地、电力和外壳等基础设施,到芯片,再到平台、模型,还有最重要的,最终将推动这个行业腾飞的,是所有的应用程序。

这一切的起点,都始于此处。今年是 CUDA 诞生20周年。我们已经致力于 CUDA 的研发长达20年之久。20年来,我们始终深耕于这一架构。这项革命性的发明 SIMT(单指令多线程),使得编写标量代码可以衍生为多线程应用,这比 SIMD 的编程要容易得多。我们最近增加了 tile,帮助人们对 Tensor Cores 进行编程,以及这些对当今人工智能至关至关重要的数学结构。

开源领域中成千上万的工具、编译器、框架和库,以及数十万个公共项目,CUDA 已经集成到了每一个生态系统中。这张图表涵盖了 NVIDIA 100% 的战略。大家从一开始就一直看着我讲解这张幻灯片。

最难实现的部分就是最底层的部分:装机量。

我们用了20年的时间,才在全球范围内积累了数以亿计运行 CUDA 的 GPU 和计算系统。我们现已部署在每一个云端。遍布于每一家计算机公司。服务于几乎每一个行业。CUDA 的装机量正是飞轮加速的原因。装机量吸引了开发者,他们进而创造出能实现突破的新算法。

例如,深度学习。

还有许多其他的例子。这些突破带来了全新的市场,并围绕这些市场构建起新的生态系统,吸引其他公司加入,从而创造出更大的装机量。这个飞轮现在正在加速。NVIDIA 库的下载量正在以惊人的速度加速增长。它已经具备了非常大的规模,并且正在以前所未有的速度增长。

正是这种飞轮效应使得该计算平台能够支撑如此众多的应用和突破,最重要的是,它也让这些基础设施具备了极长的使用寿命。其原因显而易见。你可以在 NVIDIA CUDA 上运行海量应用。我们支持 AI 生命周期中的每一个阶段。我们覆盖了每一个数据处理平台。我们加速了各类基于科学原理的求解器。

其应用覆盖范围非常广泛。其优势在于,一旦安装了 NVIDIA GPU,其使用寿命将长得惊人。这也是我们六年前推出的 Ampere 架构在云端定价反而上涨的原因之一。这一切之所以成为可能,是因为我们拥有庞大的装机量、强大的飞轮效应以及深远的开发者影响力。

当这一切协同运作,且我们持续更新软件时,计算成本便会随之降低。

加速计算的结合极大地提升了应用程序的运行速度。随着我们持续培育并更新软件的整个生命周期,不仅能获得初期的性能爆发,还能随着时间的推移享受到加速计算带来的持续成本降低。

我们愿意培育并支持全球每一块 GPU,因为它们在架构上都是兼容的。

我们之所以愿意这样做,是因为安装基数非常庞大,如果我们发布一项新的优化,数百万人都能从中受益。这适用于全球的每一个人。这种动态组合正是 NVIDIA 架构能够扩大其影响力、加速自身增长,并同时降低计算成本的原因,而这最终又促进了新的增长。CUDA 处于这一核心地位。


传承与创新:从 GeForce 到神经渲染

我们的旅程始于 25 年前。GeForce。

你们中有多少人是伴随着 GeForce 长大的。GeForce 是 NVIDIA 最伟大的营销活动。

我们早在你们自己能够负担得起之前,就开始吸引未来的客户了。是你们的父母支付费用让你们成为了 NVIDIA 的客户。他们年复一年地支付,直到有一天你们成为了出色的计算机科学家,成为了合格的客户,合格的开发者。

这正是由 GeForce 所建立的基业。25 年前,我们开启了通往 CUDA 的旅程。25 年前,我们发明了可编程着色器。这是一项极具远见的发明,旨在使加速器具备可编程性,从而诞生了世界上第一个可编程加速器——像素着色器。

25 年前的这一发明引领我们不断探索,5 年后,我们发明了 CUDA。这是我们所做的最大投资之一,当时我们几乎承担不起,消耗了公司绝大部分的利润,目的就是为了让 CUDA 能够依托 GeForce 进入每一台计算机。

我们致力于打造这个平台,因为我们感触颇深,坚信其巨大的潜力。尽管起步阶段历经磨难,但公司始终坚定不移,在过去的13代产品或20年间,我们始终保持信念,如今 CUDA 已在各处普及。

像素着色器引领了 GeForce 的革命。大约10年前,我们推出了 RTX,这是针对现代计算机图形时代对架构进行的彻底重构。GeForce 将 CUDA 带给了世界。

GeForce 使 Alex Krizhevsky、Ilya Sutskever、Geoff Hinton、Andrew Ng 以及其他许多人发现,GPU 可以成为他们加速深度学习的得力助手。这开启了 AI 的大爆炸。10年前,我们决定将可编程着色与两个新理念相融合。

一个是光线追踪,即硬件光线追踪,这极其难以实现;另一个在当时是全新的理念——大约10年前,我们就认为 AI 将彻底改变计算机图形学。

GeForce 将 AI 带给了世界,如今 AI 也将反过来彻底改变计算机图形学的实现方式。今天我将向大家展示一些关于未来的东西。这是我们的下一代图形技术。我们称之为神经渲染,它是 3D 图形与人工智能的融合。这就是 DLSS 3.5。请看。

不可思议。

计算机图形变得栩栩如生。现在我们该做什么?我们将可控的 3D 图形、虚拟世界的真实真理(ground truth)以及结构化数据进行了融合。

记住这个词:虚拟世界和生成式世界的结构化数据。我们将 3D 图形和结构化数据与生成式 AI 及概率计算结合在了一起。其中之一是完全可预测的。而另一个则是概率性的,但高度逼真。我们将这两个概念结合起来,通过结构化数据进行控制,实现完美可控的同时又具备生成能力。其结果是,生成的内容既美妙、惊人,又完全可控。这种将结构化信息与生成式 AI 相融合的理念,将在一个又一个行业中不断重复上演。


数据的力量:结构化与非结构化 AI

结构化数据是值得信赖的 AI 的基石。接下来的内容可能会让你感到些许恐惧。我要切换幻灯片了,请不要惊呼。

接下来的时间里,我们将深入剖析这张架构图。这是我最棒的一张幻灯片。每次我问团队,我最棒的幻灯片是哪一张?一次又一次,就是这张。他们说,别做这个,Jensen。我说,不。

对于你们中的一些人来说,这些座位是免费的。这就是你们的入场费。这就是结构化数据。你们都听说过。SQL、Spark、Pandas、Velox,还有一些非常重要的大型平台和系统,例如 Snowflake、Databricks、Amazon EMR、Azure Fabric、Google Cloud BigQuery。所有这些平台都在处理数据帧(DataFrames)。

这些数据帧庞大的电子表格,它们承载了生活中的所有信息。这就是结构化数据,是商业的基准事实。这就是企业计算的真相。现在我们将让 AI 使用结构化数据,我们最好极大地加速这一进程。过去我们会加速结构化数据处理,以便能够做得更多、成本更低、每天处理的频率更高,并让公司以更同步的方式运转。

未来将会发生的情况是,这些数据结构将被 AI 所使用。而 AI 的速度将远超人类。未来的智能体也将使用结构化数据库。还有非结构化数据库,即生成式数据库。这种数据库代表了世界上绝大多数的信息。向量数据库、非结构化数据、PDF、视频、演讲,世界上所有的信息,每年产生的各类数据中约有 90% 是非结构化数据。

直到现在,这些数据一直以来都是对世界完全无用。我们阅读它,把它存入文件系统,就结束了。遗憾的是,我们无法对其进行查询,也无法进行搜索。要做到这一点很困难。原因在于,目前还没有针对非结构化数据的简便索引方式。你必须理解其含义及其目的。

现在,我们可以利用 AI 来完成这项工作。AI 能够解决多模态感知和理解,你可以利用同样的多模态感知与理解技术去阅读 PDF,并理解其含义。通过这种理解,将其嵌入到一个更大的结构中,我们便可以对其进行搜索和查询。

NVIDIA 创建了两个基础库,为 3D 图形创建 RTX 一样。我们创建了 cuDF 用于处理数据帧和结构化数据。我们为向量存储、语义数据、非结构化数据以及 AI 数据创建了 cuVS。这两个平台将成为未来最重要的两个平台。非常激动能看到它在整个网络,即这个复杂的世界数据处理系统网络中的应用。数据处理已经存在很长一段时间了。由于存在如此多不同的公司、平台和服务,我们花了很长时间才深入整合进这个生态系统。我为我们在这里所做的工作感到无比自豪。


全球合作:IBM、DELL 与云巨头

今天,我们将宣布其中的几项成果。

IBM 作为 SQL 的发明者,即有史以来最重要的领域特定语言之一,正通过 cuDF 加速 WatsonX Data 的发展。让我们一起来看看。

60 年前,IBM 推出了 System 360。这是第一个通用计算的现代平台,开启了计算时代,随后是 SQL,这是一种无需逐步指令即可查询数据的声明式语言。以及数据仓库。

两者皆是现代企业计算的基石。

如今,IBM 和 NVIDIA 正通过加速 IBM WatsonX Data SQL 引擎与 NVIDIA GPU 计算库,重塑 AI 时代的数据处理流程。

数据是赋予 AI 环境背景与意义的根本事实。AI 需要快速访问海量数据集。当前基于 CPU 的数据处理系统已无法满足需求。Nestle 每天都要做出数以千计的供应链决策。他们的数据集市汇集了全球 185 个国家的所有供应、订单及交付事件。

在 CPU 上,Nestle 每天只能对该数据集市进行几次更新。借助加速后的 WatsonX Data,Nestle 能够以 5 倍的速度完成相同工作负载,并将成本降低 83%。下一代计算平台已经到来。面向 AI 时代的加速计算。

NVIDIA 在云端加速数据处理。我们也加速本地部署的数据处理。Dell 是全球领先的计算机系统制造商,同时也是全球领先的存储提供商之一。

他们与我们合作打造了 Dell AI data platform,通过整合 cuDF 和 cuVS 构建了一个加速数据平台,旨在服务于 AI 时代。这是他们与 NTT data 合作的一个案例,实现了巨大的性能提升。

这是 Google Cloud,我们与 Google Cloud 已经合作了很长时间。我们加速了 Google 的 Vertex AI。现在我们还加速了 BigQuery,这是一个非常重要的框架和平台。这是我们与 Snapchat 合作的一个案例,我们将他们的计算成本降低了近 80%。

当你加速数据处理,当你加速计算时,你获得了速度的优势,也获得了规模的优势。最重要的是,你获得了成本的优势。所有这些因素融为一体。这最初被称为 Moore's Law(摩尔定律)。Moore's Law 指的是性能每隔几年翻一番。只要价格保持大致不变,且大多数计算机的价格也保持大致不变,你每年就能获得两倍的性能,你每年都在降低计算成本。

Moore's Law 已经后继乏力了。我们需要一种新的方法。加速计算使我们能够实现这些巨大的飞跃。我们不断优化算法,NVIDIA 是一家算法公司,随着我们持续优化算法,且由于我们的覆盖范围广,安装基数大,我们可以持续降低计算成本,增加规模,并为所有人提升速度。

这是 Google Cloud。你们可以看到我刚才提到的这种模式。我只想向你们展示三个词。NVIDIA 构建了加速计算平台。它在顶层包含了一系列库。RTX 是其中之一,CUDA 是另一个,以及 cuPy,我们稍后还会展示更多。这些库位于我们平台的顶层。我们正融入全球的云服务,融入全球的 OEM,以及其他平台,我们正共同进入全球的云服务体系中。从而能够触达全世界。这种 NVIDIA、Google Cloud 与 Snapchat 的合作模式将会不断重演。

这就是一个例子,NVIDIA 与 Google Cloud 的合作。我们加速了 Vertex AI。我们加速了 BigQuery。我们正在进行加速。我对我们与 JAX XLA 的合作感到非常自豪。我们在 PyTorch 上的表现极其出色。我们是世界上唯一一个在 PyTorch 和 JAX XLA 上都能提供卓越性能的加速器,并且我们还提供相应的支持覆盖。像 Databricks、CrowdStrike、ServiceNow、Salesforce 这些公司,他们虽然不是我们的直接客户,但他们是我们的开发者,我们将 NVIDIA 技术集成到他们的产品中,从而能够成功部署到云端。

我们与云服务提供商的关系,本质就是我们为他们带来客户。

我们集成自己的库,加速工作负载,并将这些客户引入云端。

我们的大多数云服务提供商都乐于与我们合作。他们总是希望我们能将下一个客户引入他们的云平台。客户的数量非常多。

我们将助力所有人加速发展。将会有非常多的客户能够入驻你们的云平台。请对我们保持耐心。这就是 Google Cloud。这就是 AWS。我们与 AWS 已经合作了很长时间。今年我感到非常兴奋的一件事是,我们将把 OpenAI 带到 AWS 上。这将推动 AWS 云计算的巨大消费需求。这不仅会扩展 OpenAI 的覆盖范围,还将提升其计算能力。他们目前完全受限于计算资源。在 AWS 上,我们加速了 EMR,加速了 SageMaker,加速了 Bedrock,NVIDIA 与 AWS 进行了深度集成。他们是我们首个云合作伙伴。

Microsoft Azure。我们构建的首台 NVIDIA A100 超级计算机就是为 NVIDIA 自己构建的。我们安装的第一台设备是在 Azure。这促成了与 OpenAI 之间非常成功的合作。我们与 Azure 已经合作了很长一段时间。我们加速 Azure Cloud。现在,我们与他们的 AI foundry 进行了深度合作。我们提供加速。我们与他们在 Azure regions 上进行合作。

这是极其重要的领域之一。随着我们继续在全球范围内扩展 AI,我们提供的能力之一是机密计算。在机密计算中,你希望确保即使是运营商也无法查看你的数据。您的模型。机密计算,V 系列 GPU,是全球首个实现该功能的案例。它现在能够支持机密计算,并在全球各云平台和不同区域对这些极具价值的 OpenAI 模型和 Anthropic 模型进行受保护的部署,这一切都归功于我们的机密计算技术。机密计算至关重要。

以下是我们合作的不同客户的案例。Synopsys,我们伟大的合作伙伴。我们正在加速他们的所有 EDA 和 CAE 工作流,随后我们入驻了 Microsoft Azure。我们是 Oracle 的首位 AI 客户。大多数人会认为我们是他们的第一供应商。

我们确实也是他们的第一供应商,但我们更是他们的第一位 AI 客户。

我非常自豪的一点是,我首次向 Oracle 解释了 AI 云的概念,我们也是他们的首位客户。从那时起,他们的业务发展得非常迅速。我们已经将一大批合作伙伴引入了该平台。包括 Cohere、Fireworks,当然还有 OpenAI。

我们与 CoreWeave 建立了伟大的合作伙伴关系,这是全球首个 AI 原生云平台,这家公司从创立之初就秉持着一个单一的目标:在加速计算时代来临时,提供并托管 GPU,以支持 AI 云。他们拥有一些出色的客户,并且正在实现惊人的增长。我非常看好的平台之一是 Palantir 和 Dell。我们三家公司共同促成了一个全新 AI 平台的建立,即 Palantir Ontology Platform 和 AI Platform。我们可以在任何国家、任何物理隔离区域,完全在本地、完全在现场、完全在实地部署这些平台。AI 真的可以部署在任何地方。

如果缺乏我们的机密计算能力,缺乏我们构建端到端系统的能力,以及从数据处理(无论是向量数据还是结构化数据)一直到 AI 的全套加速计算和 AI 技术栈,这一切都是不可能实现的。

我希望能向大家展示这些案例。这就是我们与全球云服务提供商之间的特殊合作关系。他们中的所有人都来到了现场。我有幸在展台参观环节见到了他们,真是太棒了。令人兴奋。我只想感谢你们所有人的辛勤付出。


战略核心:垂直整合与水平开放

NVIDIA 所做的事就是这些。你们将会一遍又一遍地看到这个主题。NVIDIA 是垂直整合的。世界上第一家垂直整合,但水平开放的公司。

这之所以必要,原因非常简单。加速计算并非一个芯片问题。加速计算并非一个系统问题。加速计算少了一个词。应用加速。如果我能让计算机运行一切的速度更快,那叫 CPU。但这已经到了瓶颈。我们未来加速应用并持续实现巨大速度提升和显著成本降低的唯一途径,就是通过应用或领域特定的加速。

我把那个短语放在前面,所以它就变成了应用计算。NVIDIA 必须在每一个库、每一个领域、每一个垂直行业中深耕。我们是一家垂直整合的计算公司。别无他法。我们必须理解应用。我们必须理解领域。必须从根本上理解这些算法。我们需要弄清楚如何将这些算法部署到任何预期的场景中,无论是数据中心、云端、本地部署、边缘侧,还是机器人系统中。所有这些计算系统各不相同。最后是系统和芯片。

我们是垂直整合的。它之所以极其强大,也是你们看到所有演示幻灯片的原因,是因为 NVIDIA 是水平开放的。我们愿意与您合作,并将 NVIDIA 的技术集成到您希望我们集成的任何平台中。我们为您提供软件。我们为您提供函数库。我们与您的技术进行集成,以便我们能够为全球每个人带来加速计算。

本次 GTC 对此做出了极佳的展示。大多数时候,你会看到我谈论这些垂直领域,并举一些例子。在每一个案例中,无论是汽车行业,金融服务业,本次 GTC 参会者中占比最大的就是来自金融服务业的。我希望是开发者,而不是交易员。

现场观众代表了 NVIDIA 生态系统中我们供应链的上游和下游。我们致力于思考供应链的上游和下游。

最令人兴奋的是,我们整个上游供应链在过去的一年里,无论你是拥有50年历史的公司,70年历史的公司,甚至有150年历史的公司。他们现在是 NVIDIA 供应链的一部分,并与我们在上游或下游展开合作。去年你们创下了历史最高纪录。我们正在这里开启某些事业。这是某个宏大事业的开端。

审视加速计算,我们已经确立了计算平台;但为了激活这些计算平台,我们需要拥有特定领域的库,以解决我们所涉及的每个垂直行业中非常重要的问题。你看到我们正在解决每一个此类问题。自动驾驶汽车,我们的触及范围、广度及影响力,令人难以置信。我们在这方面有明确的轨迹。

金融服务正如我刚才所提到的。算法交易正在从传统机器学习转向利用超级计算机研究海量数据,自行发现洞察与模式。这正在经历其深度学习和 Transformer 时刻。

医疗保健行业正在经历属于他们的 ChatGPT 时刻。我们正在进行一些非常令人兴奋的工作。我们有一场精彩的主旨演讲,Kimberly Powell 的一场关于医疗保健的精彩主旨演讲。我们正在讨论用于药物发现的 AI 物理学或 AI 生物学,以及用于客户服务和诊断支持的 AI 智能体。诊断,当然还有物理 AI 和机器人系统。所有这些不同的 AI 向量都有 NVIDIA 提供的不同平台。

工业领域。我们正在彻底重置并开启人类历史上最大规模的建设。今天在场的代表涵盖了世界上大多数行业,包括建设 AI 工厂、芯片工厂和计算机工厂。媒体与娱乐、游戏,当然还有实时AI平台,使我们能够提供翻译、广播支持以及直播游戏和直播视频,海量内容将通过AI进行增强。

我们拥有一个名为 Holoscan 的平台。在量子领域,这里有35家不同的公司正在与我们共同构建下一代量子GPU混合系统。零售和 CPG 行业正在利用 NVIDIA 优化供应链,创建生成式冲击系统及用于客户支持的 AI 代理;这是一个规模达35万亿美元的产业,而机器人制造业则是一个规模达50万亿美元的产业。

NVIDIA 在该领域已深耕十年,构建了构建机器人系统所必需的三种基础计算机。我们与几乎所有我们所知的制造机器人的公司进行了集成与合作。我们在本次展会上展示了110台机器人。接下来是电信行业。其规模与全球IT产业相当,约为2万亿美元。我们随处可见基站。它是全球基础设施之一。这是上一代计算的基础设施。该基础设施将得到彻底的重构。原因非常简单。那个基站,它原本只做一件事,即作为基站使用,但在未来,它将成为一个人工智能基础设施平台。人工智能将在边缘侧运行。

这里有很多非常棒的讨论。我们在此领域的平台被称为 Aerial 或 AI-RAN。我们与 Nokia 建立了重要的合作伙伴关系,也与 T-Mobile 及其他许多机构建立了重要的合作。

我们业务的核心是刚才提到的所有内容,即计算平台,非常重要的一点是我们的 CUDA-X 库。

我们的 CUDA-X 库,就是 NVIDIA 发明的算法。我们是一家算法公司。这就是我们的独特之处。这使得我有能力进入每一个行业,构想未来,并让世界上最顶尖的计算机科学家去描述、解决问题,对其进行重构、重新表达,并将其转化为库。我们拥有非常多这样的库。我们在此次展会上发布了 100 个库。70 个库,或许还有 40 个模型。这仅仅是在本次展会上发布的内容。我们一直在更新这些内容。我们一直在不断地更新它们。这些库是我们公司的掌上明珠。正是它们使得这一计算平台能够被激活,从而服务于解决问题并产生影响力。

我们所创造的最庞大、最重要的库之一:cuDNN,即 CUDA 深度神经网络。它彻底变革了人工智能,引发了现代 AI 的大爆炸。让我为您播放一段关于 CUDA-X 的短片。

20 年前,我们构建了 CUDA,一个用于加速计算的单一架构。

今天,我们重塑了计算。上千个 CUDA-X 库正在帮助开发者在科学与工程的各个领域取得突破。

cuOpt,用于决策优化。cuLitho,用于计算光刻。

cuDSS,用于直接稀疏求解器。cuEquivariance,用于几何感知神经网络。Aerial,用于 AI RAN。Warp,用于可微分物理。基因组学的成对模块。

算法是它们的基础,且算法本身十分优美。你所看到的一切都是一场模拟。

其中一部分是主要求解器,即基础物理求解器。

其中一部分是 AI 代理模型、AI 物理模型,还有一部分是具身 AI 机器人模型。一切都是模拟出来的。没有任何内容是动画制作的。没有任何内容是手动关节驱动的。一切都是完全模拟的。这正是 NVIDIA 从根本上所做的事情。正是通过将算法理解与我们的计算平台相结合,我们才得以开启并释放这些机遇。NVIDIA 是一家垂直整合的计算公司,同时与世界保持着开放的水平整合。


AI 原生代与推理的爆发

这就是 CUDA-X。刚才你们看到了一大批公司。

你看到了 Walmart,还有 L'Oreal 以及一些老牌企业。J.P. Morgan 和 Roche,这些公司定义了当今的社会。Toyota 也在其中。这些都是世界上规模最大的公司。

还有一大批你从未听说过的公司。

这些公司,我们称之为 AI natives,是一大群小型企业。名单极其庞大。这仅仅是其中极小的一部分。这个列表中包含了一大批全新的公司。它们是一些像 OpenAI、Anthropic 这样的公司。还有很多其他的公司。它们服务于不同的垂直领域。

在过去两年里,特别是在去年,发生了一些变化。我们与这些 AI 原生公司合作已经很长一段时间了。而在去年,这种合作呈现出爆发式增长。我来为你解释为什么会发生这种情况。这一行业已飞速发展。1500亿美元的风险投资投入到初创企业中,这是人类历史上规模最大的一次。这是投资规模首次跨越到数亿美元乃至数十亿美元的级别。

其原因在于,这是历史上首次每一家公司都需要算力,而且是极其庞大的算力。他们需要 Token,大量的 Token。他们要么自行构建、创造并生成 Token,要么选择集成由 Anthropic、OpenAI 等公司创造的现有 Token,并为其增加价值。这个行业在诸多方面都与众不同,有一点非常明确:它们正在产生的影响,以及它们已经交付的巨大价值,是相当具体的。

AI 原生,这一切皆因我们重塑了计算。正如 PC 革命时期一样,一大批新公司应运而生。就像在互联网革命期间涌现出了一大批公司一样,在移动云时代,也同样涌现出了一大批公司。它们每一家都有各自的标准。我们正在讨论的是刚刚发生的其中一个主要标准,这极其重要。

在这一代,我们也拥有大量独特的公司。

我们重塑了计算技术。可以预见,未来将会涌现出一批对世界未来至关重要、极具影响力的公司。Google、Amazon、Meta 这些在上次计算平台转型中脱颖而出的公司,都是极具影响力的企业。我们现在正处于一次全新平台转型的开端。

过去几年发生了什么呢?我们致力于深度学习和 AI 研究,这是现代 AI 的大爆炸。我们当时就身处其中。为什么是过去两年呢?过去两年发生了什么?有三件事。ChatGPT 开启了生成式 AI 时代。它不仅能够理解、感知和认知,它还能进行翻译和生成,即生成独特的内容。我向你们展示了生成式 AI 与计算机图形学的融合,它让计算机图形学焕发了生机。世界上每个人都应该使用 ChatGPT。我每天早上都在用它,今天早上也用了好几次。

ChatGPT 代表了生成式 AI 时代。第二点是生成式计算,这与我们过去处理计算的方式截然不同。生成式AI是软件的一种能力,它深刻地改变了计算的完成方式。过去计算基于检索,现在它是生成式的。记住这一点,你就会明白为什么我们所做的一切都将改变计算机的架构方式、提供方式、构建方式,以及计算本身的意义。

生成式AI,2023年。

2022年年底。

下一代推理AI,o1,随后在o3上实现飞跃。

推理使其能够反思,能够进行自我思考,能够进行规划,能够拆解问题,将它无法理解的问题分解为它能理解的步骤或部分。它能够进行自我验证。基于研究,o1使生成式AI变得可信并建立在事实基础上。这使得 ChatGPT 一飞冲天。那是一个非常重要的时刻。

为了进行推理,模型在输入 token 需求量以及输出 token 生成量方面都变得稍大了一些。当然,你也可以拥有规模大得多的模型。模型 o1 稍微大了一点,它在处理上下文时的输入 token 用量以及用于思考的输出 token 用量,极大地增加了计算量。

随后出现了 Claude Code,这是第一个智能体模型。它能够读取文件、编写代码、编译代码、测试代码、评估代码,并进行回溯和迭代。Claude Code 彻底改变了软件工程,NVIDIA 内部 100% 的员工都在使用 Claude Code、Codex 和 Cursor,通常是三者结合使用。如今,没有哪位软件工程师是不被一个或多个 AI 智能体辅助编程的。

Claude Code 完全革新了新的拐点。这是第一次,你不再问 AI 什么、是什么、哪里、何时、如何。你要求它去创造、去执行、去构建。

你要求它使用工具、获取你的上下文信息、阅读文件。

它能够以智能体的方式分解问题、进行推理并进行反思。它能够解决问题并实际执行任务。能够感知的 AI 演变成了能够生成的 AI。能够生成的 AI 演变成了能够推理的 AI。能够推理的 AI 现在演变成了能够真正完成工作的 AI。富有成效的工作。

过去两年中的计算总量,在座的每个人都知道对 NVIDIA GPU 的计算需求已经爆表了。现货价格正在飞涨。你根本找不到 GPU。与此同时,我们仍在持续出货 GPU。数量极其惊人。需求还在不断攀升。这背后是有原因的。这就是根本性的转折点。AI 已经能够进行生产性工作,推理的拐点已经到来。AI 现在需要进行思考。为了进行思考,它必须进行推理。AI 现在必须进行推理。AI 现在必须进行思考。

为了完成任务,AI 必须进行推理;为了读取信息,AI 必须进行推理;它必须进行逻辑推理,在 AI 的每一个环节、每一次思考时,它都必须进行推理,它必须生成 token。我们早已跨越了训练阶段,现在正处于推理领域。推理的拐点已经到来,此时所需的计算量增加了约 10,000 倍。

事实是:在过去两年里,工作负载的计算需求增加了 10,000 倍,而使用量可能增加了 100 倍。人们听我说过,我相信在过去两年里,计算需求增加了一百万倍。这是我们所有人的共同感受。这是每一家初创公司的感受。这是 OpenAI 的感受。这是 Anthropic 的感受。如果他们能获得更多的算力容量,他们就能生成更多的 token。他们的收入将会增加。更多的人可以使用它。越先进,AI 就越智能。

我们现在正处于那个良性飞轮系统中。

我们已经到达了那个时刻。推理的拐点已经到来。

去年这个时候,我说过在那一刻,我们看到了大约 5000 亿美元。我们看到了 5000 亿美元的高置信度需求和采购订单。

涵盖 Blackwell 和 Rubin,直至 2026 年。我去年是那么说的。现在,我不知道你们是否也有同感,但5000亿美元是一笔巨额收入。没人感到惊讶。

我知道你们为什么不惊讶,因为你们所有人都度过了业绩创纪录的一年。我在这里要告诉你们的是,在 GTCDC 结束后的短短几个月,距离上一次 GTC 一年后的现在,我所看到的至少到 2027 年,至少有一万亿美元的规模。那么,这合理吗?这就是我接下来要花时间讨论的内容。

我们将会面临供应短缺。我确信计算需求将远高于这个数字。

这背后是有原因的。

首先,我们在过去一年里做了大量工作。

众所周知,2025年是 NVIDIA 的推理之年。我们希望确保不仅在训练和训练后阶段表现出色,而且在 AI 的每一个环节都做到极致,这样投入到我们基础设施中的资本,就能在整个生命周期内实现扩展。NVIDIA 基础设施的使用寿命将会很长,因此成本会极低。使用时间越长,成本就越低。NVIDIA 系统是世界上 AI 基础设施中成本最低的选择。第一部分是去年全力聚焦于 AI 推理,这推动了此次转折点的出现。

与此同时,我们很高兴看到去年 Anthropic 选择加入 NVIDIA,xAI 和 Meta 也选择了 NVIDIA。作为一个整体,这代表了全球三分之一的开源模型 AI 计算能力。

开源模型已经接近前沿水平,并且几乎无处不在。NVIDIA 是当今世界上唯一能够运行所有 AI 领域模型的平台,涵盖语言、生物学、计算机图形学、计算机视觉、语音、蛋白质和化学分子、机器人技术等,无论是边缘计算还是云端,也不论何种语言,NVIDIA 的架构对这一切都具有通用性,并且我们为所有这些应用提供了卓越的支持。

这使我们能够成为成本最低、置信度最高的平台。在构建这些系统时,万亿美元的投入是一笔巨大的基础设施开支。你必须完全确信你投入的万亿美元能够得到充分利用,具有高性能,具有极高的成本效益,并且在预见的未来内拥有实用价值。基于 NVIDIA 的基础设施投资,你可以完全放心地进行。我们已经证明了这一点。这是世界上唯一一个让你可以在全球任何地方都能够充满信心地进行构建的基础设施。你可以选择将其部署在任何云平台上。你们希望将其部署在本地。你们希望将其部署在世界上任何国家的任何地方。我们非常乐意为您提供支持。

我们现在是一个运行所有 AI 的计算平台。我们的业务已经开始显现出这一点。

我们业务的 60% 来自超大规模数据中心。

即排名前五的超大规模云服务商。即便是在这排名前五的超大规模云服务商内部,也有一部分是其内部的 AI 消耗。这种内部的 AI 消耗正致力于非常重要的工作,例如 RecSys 正从基于表格的推荐系统、协同过滤和内容过滤转向更先进的架构。它正在向深度学习和大语言模型方向演进。搜索,转向深度学习、大语言模型。几乎所有这些不同的超大规模工作负载现在都在转移,向 NVIDIA GPU 极其擅长的工作负载方向转变。

不仅如此,由于我们与每一家 AI 实验室合作,由于我们加速每一个 AI 模型,并且由于我们拥有一个与之合作的庞大 AI 原生生态系统,我们可以将其带入云端,无论投资规模多大、速度多快,这些计算资源都将被消耗。这占我们业务的 60%。

另外 40% 则分布在各个领域。区域云、主权云、企业、行业、工业、机器人、边缘计算、大型系统、超级计算系统、小型服务器、企业级服务器,系统的数量令人难以置信。

AI 的多样性也是其韧性的来源。

AI 的覆盖广度即是其韧性所在。这绝非一种单一应用技术。

它现在已是基础。一次全新的计算平台转型。我们的工作是继续推动技术进步,去年是我们进行推理的一年。我们投入了一切。我们冒了巨大的风险,在 Hopper 正处于巅峰时期、表现正盛的时候对其进行了重塑。我们决定必须将 Hopper 架构和 NVLink 8 提升到一个新的水平。我们彻底重新架构了整个系统,将计算系统完全解构,创造了 NVLink 72。它的构建方式、制造方式以及编程方式,都发生了彻底的改变。

Grace Blackwell 和 NVLink 72 是一场巨大的豪赌。这对任何人来说都不容易。还有在座的许多合作伙伴,感谢大家付出的辛勤努力。NVLink 72,NVIDIA NVFP4,这是一种完全不同的Tensor Core和计算单元。我们现在已经证明,可以在不损失精度的情况下进行NVFP4推理,同时在性能和能效上实现巨大的提升。我们还能够将NVFP4用于训练。

NVLink 72,NVFP4,动态Tensor RTLM的发明,以及一大批全新的算法。我们建造了一台超级计算机来帮助优化内核并优化整个技术栈,我们称之为DGX Cloud。我们投入了数十亿美元的超级计算能力,帮助我们创建使推理成为可能的内核和软件。过去人们常对我说,Jensen,这太容易了。推理才是终极难题。这同样至关重要,因为它直接驱动了你们的营收。这是来自 SemiAnalysis 的数据。


工厂经济学:每瓦特产生的 Token 数

这是迄今为止针对 AI 推理进行过规模最大、最全面的调研。大家在左侧这里看到的,是每瓦特产生的 token 数。

每瓦特 token 数之所以重要,是因为每一个数据中心、每一家工厂,从定义上讲,都受到电力供应的限制。一座 1 吉瓦的工厂永远不可能变成 2 吉瓦。它受到物理条件的制约。对于那 1 吉瓦的数据中心,你想要驱动生产出最多的 token,也就是该工厂的产出。你希望尽可能地处在那条曲线的顶端。

横轴是交互性、推理速度,即每次推理的执行速度。

推理速度越快,响应速度自然就越快。

非常重要的一点是,推理速度越快,所能支持的模型规模就越大,能够处理的上下文就越多,能够深入思考的 tokens 也就越多;这一轴代表着 AI 的智能化程度。这就是 AI 的吞吐量,也就是 AI 的智能化水平。请注意,AI 越聪明,吞吐量就越低。这很合理。因为你在进行更长时间的思考。

全世界的每一位CEO,从今往后,每一位CEO都会用我即将描述的方式来审视他们的业务。

这就是你们的Token工厂。这就是你们的AI工厂。

这就是你们的营收来源。所以这就是吞吐量。这就是智能。在给定的数据中心功率下,每瓦特对应的性能越好,吞吐量就越高,你们能生产的Token也就越多。而这一侧是成本。NVIDIA 拥有世界上最高性能的产品。

真正令他们惊讶的是,按摩尔定律推算,原本我们在同一代际内只能获得两次 50% 的晶体管性能提升。摩尔定律大概只会带给我们 1.5 倍的性能提升。你原本对 Hopper H200 的预期也只是 1.5 倍的提升。没人预料到会实现 35 倍的提升。

我去年这个时候曾提到,NVIDIA 的 Grace Blackwell 和 NVLink 72 在能效比上达到了 35 倍。起初没人相信我。后来 SemiAnalysis 发布了报告,Dylan Patel 也引用了相关内容。他指责我是在蓄意低报性能数据。他说,Jensen,你隐藏了实力。实际上是 50 倍。他确实没说错。

我们的单位 token 成本是世界上最低的。

你无法超越它。我之前说过,如果你的架构不对,即使它是免费的,也依然不够便宜。无论发生什么,你仍然必须建造一座千兆瓦级的数据中心。一座吉瓦工厂,若按15年摊销,成本约为400亿美元。即便你什么都不投入,也已经投入了400亿美元。你最好确保为它配备最顶尖的计算机系统,以便实现最优的Token成本。

NVIDIA的Token成本属于世界级水准,目前几乎无人能及。

之所以如此,是因为我们采用了极致的代码设计。

我们垂直整合所有软件,同时也保持水平开放。我们将所有的软件和技术进行了整合。

我们可以将其打包并集成到全球的推理服务提供商中。

这些公司的发展速度非常快。Fireworks,Lynn 在这里。它们的发展速度简直快得惊人。去年增长了一百倍。它们是 Token 工厂。对于这些工厂而言,其效率、性能以及 Token 的生产成本能力就是一切。

事情就是这样发生的。我们更新了它们的软件,使用相同的系统。看看它们的 Token 生成速度,令人难以置信。

在 NVIDIA 更新所有软硬件、算法以及各项技术之前,速度大约是每秒 700 个 Token,现在平均接近 5000 个,提升了 7 倍。

这就是极致代码设计所带来的惊人力量。我之前提到过工厂的重要性。过去,数据中心主要用于存储文件。而现在,它是一座生产 Token 的工厂。

无论如何,你的工厂产能总会受到限制。每个人都在寻找土地、电力和基础设施。一旦建成,你就会受到电力的制约。在受功率限制的基础设施中,你最好确保你的推理能力,推理即是你的工作负载,token 是你的新商品,计算力就是你的营收,你要确保架构尽可能地经过优化。未来,每一家 CSP、每一家计算机公司、每一家云服务公司、每一家 AI 公司,甚至是每一家公司,都将思考其 token 工厂的效能。这就是你未来的工厂。在座的每一位都是由智能驱动的。而在未来,这种智能将通过 token 得到增强。


硬件革命:Vera Rubin 平台与 Groq 加速器

让我带大家回顾我们是如何走到今天的。十年前的 2016 年 4 月 6 日,我们推出了 DGX-1,世界上第一台专为深度学习设计的计算机。由八个 Pascal GPU 通过第一代 NVLink 连接而成。单机算力达到 170 teraflops,这是世界上第一台为 AI 研究人员设计的计算机。

随着 Volta 的发布,我们引入了 NVLink Switch。

16个GPU以完整的全对全带宽连接,作为一个巨大的GPU运行。这是一大进步,但模型规模仍在持续增长。数据中心需要成为单一的计算单元,Mellanox 加入了单一计算单元。

2020年,DGX A100 SuperPod 成为首个结合了纵向扩展与横向扩展架构的GPU超级计算机。用于纵向扩展的 NVLink 3,以及用于横向扩展的 ConnectX-6 和 Quantum InfiniBand。随后是 Hopper,这是首个配备 FP8 Transformer 引擎并开启生成式AI时代的GPU。NVLink 4。ConnectX-7。BlueField-3 DPU。第二代 Quantum InfiniBand。它彻底改变了计算领域。

Blackwell 通过 NVLink 72 重新定义了 AI 超级计算系统架构。由 NVLink 主干连接的 72 个 GPU。每秒 130 太字节的全对全带宽。计算追踪整合了 Blackwell GPU、Grace CPU、ConnectX-8 和 BlueField-3。

横向扩展运行于 Spectrum-4 以太网之上。随着预训练、后训练和推理这三大扩展定律的全面推进,以及如今的 Agentic 系统,计算需求持续呈指数级增长。

现在,推出 Vera Rubin。专为 Agentic AI 的每个阶段设计,推动包括 CPU、存储、网络和安全在内的计算支柱的全面进步。Vera Rubin NVLink 72。3.6 百亿亿次浮点运算(exaflops)的计算能力。每秒 260 太字节的全对全 NVLink 带宽。驱动智能体 AI 时代的引擎。Vera CPU 封装。专为编排和智能体工作流设计。STX 封装。基于 Bluefield 4 构建的 AI 原生存储。通过 Spectrum X 共封装光学器件实现横向扩展,提升能源效率和韧性。

还有一个令人惊叹的新成员,Groq 3 LPX 机架。与 Vera Rubin 紧密连接,Groq 的 LPU 拥有庞大的片上 SRAM,这是一个针对本已极速的 Vera Rubin 的令牌加速器。两者结合,每兆瓦吞吐量提升 35 倍。全新的 Vera Rubin 平台。七颗芯片。五台机架级计算机。一台面向 Agentic AI 的革命性 AI 超级计算机。算力提升 4000 万倍。仅用了 10 年时间。

在过去的美好时光里,每当我提到 Hopper,我都会举起一块芯片。那真是太可爱了。

这是 Vera Rubin。当我们想到 Vera Rubin 时,我们想到的是整个系统与软件完全垂直整合。扩展至端到端,作为一套统一的大型系统进行优化。它专为智能体系统设计,因为对于智能体而言,最核心的工作负载无疑是背后的思考引擎——大语言模型。大语言模型的规模将会变得越来越庞大。它将更快速地生成海量 Token,实现更高效的思考,与此同时,它也必须频繁访问内存。

它将对内存施加极大的负载。无论是 KV Cache、结构化数据、cuDF,还是非结构化数据、cuVS,都会对存储系统造成极大的压力,这正是我们重新构建存储系统的原因。

它还将使用各种工具。

与人类对电脑延迟的容忍度不同,AI 要求工具的运行速度越快越好。这些工具,包括未来的网络浏览器,甚至云端的虚拟 PC。这些电脑设备必须尽可能地保持高速运行。我们打造了一款全新的 CPU。这款全新的 CPU 专为极高的单线程性能、超高的数据吞吐量、极其出色的数据处理能力以及极致的能效而设计。它是世界上唯一采用 LPDDR5 的数据中心 CPU,具备令人难以置信的单线程性能和无与伦比的能效比。我们构建它是为了让它能与这些机架中的其余部分协同工作,以进行代理式处理。

这是 Grace Blackwell,不对,是 Vera Rubin,它在哪儿?在这儿。这就是 Vera Rubin 系统。注意到有什么变化了吗?百分之百采用液冷技术。所有的线缆都消失了。

过去需要两天安装完成的工作,现在只需两小时。

不可思议。制造周期将大幅缩短。这是一台由热水冷却的超级计算机,水温为 45 摄氏度。这减轻了数据中心的压力,省去了用于冷却数据中心的所有成本和能源,并将其转化为系统的可用资源。

这就是核心秘诀所在。

我们是全球唯一一家已经构建出 Sixth generation scale-out exchange system 的公司。

这不是 Ethernet,也不是 Infiniband。

这是 NVLink。第六代 NVLink。要做好这一点极其困难。我为团队感到无比自豪,NVLink,完全采用液冷散热。要做好这件事极其困难。

这是全新的 Groq 系统。我将为您进一步展示它的细节。

该系统包含八颗 Groq 芯片。

这是 LP30,世界上从未见过它。世面上所有已知的设备都是 V1 版本,而这是第三代产品。我们正处于量产阶段。稍后我会为您展示更多相关信息。

这是世界上首款 CPO Spectrum X Switch,也处于全面量产状态。共封装光学。

光学器件直接安装在此芯片上,并直接与硅片实现接口对接。电子被转换为光子,并直接连接到该芯片。

我们与 TSMC 共同发明了这项工艺技术。我们是唯一将其投入量产的公司。它被称为 COOP。这是一项极具革命性的技术。NVIDIA 正在全面量产 Spectrum X。

这就是 Vera 系统。其单位功耗性能是当今世界上任何 CPU 的两倍。该产品也已投入生产。我们从没想过会单独销售 CPU。我们现在正在大量单独销售 CPU。这已经成为一项数十亿美元规模的业务。我对我们的 CPU 架构师感到非常满意。

我们设计了一款革命性的 CPU。

搭载 VARA CPU 的 CX9,即 Bluefield 4 STX,我们全新的存储平台。这些就是那四台机架。它们已经连接好了。

每一个机架,也就是 NVLink 机架,我之前向各位展示过,它非常重。

它似乎每年都在变重。每年里面的线缆都在增加。

这就是 NVLink 机架。我们也采用了这项技术,因为利用这些布线系统和结构化电缆来构建数据中心非常高效。因此,我们决定将其应用于以太网。这就是在单个机架中容纳 256 个液冷节点的以太网系统,它同样通过这些出色的连接器进行连接。

这就是 rubin Ultra。与水平滑入的 rubin 不同,rubin Ultra 放入了一个全新的机架,即 Khyber,它使我们能够在同一个 NVLink 域中连接 144 个 GPU。这就是 Khyber 机架,我肯定能抬得动它,但我不会那样做。它相当沉重。

这是一个计算节点,它垂直滑入 Khyber 机架。

它连接的地方。这是中板。Khyber racks,即四个顶部的 NVLink 连接器,滑入并连接到此处,这就成为了其中一个节点。这些轨道中的每一条都是一个不同的计算节点。最令人惊叹的部分就在这里。这是中板。在中板的背面,我们不再使用布线系统——因为布线系统在传输距离(铜缆传输距离)上存在限制,现在我们有了这套系统来连接 144 个 GPU。这就是新的 NVLink。

它也是垂直放置的,并连接到背面的中板上。

前端是计算,后端是 NVLink 交换机,构成了一台巨大的计算机。

这就是 rubin Ultra。我们要不要把它先撤下来?

我还需要展示剩下的幻灯片。

撤下来了吗?谢谢你,Justin。这就是你不练习所导致的后果。

没关系。慢慢来,只要别弄伤自己就行。你们看到了这张幻灯片。只有在 NVIDIA 的主题演讲中,你才会看到去年的幻灯片又被拿出来展示。因为我想告诉大家,去年我曾向你们传达过一件非常重要的事情。这件事极其重要,值得再次向各位强调。

这是对于 AI factories 未来而言最重要的一张图表。全世界的每一位 CEO 都将追踪这张图表。我们将对此进行极其深入的研究。它远比看起来要复杂得多。它是多维度的。你们都将去研究你们 AI factories 的吞吐量和 token speed。在 ISO power 下的吞吐量和 token speed,这就是你们所拥有的全部电力,即你们工厂永远的吞吐量与 token speed。

该分析将直接导向你们的营收。你们今年的行动将准确地体现在明年的营收上。这张图表就是一切的核心所在。我刚才提到了纵轴,纵轴代表的是吞吐量。横轴代表的是 token 速率。今天,我要向大家展示这一点。

因为我们能够提高 token 速度,由于模型规模正在增长,由于 token 长度(即上下文长度)会根据不同等级的应用场景,从或许 100,000 个 token 的输入长度持续增长至数百万。token 输入长度在增长,同时输出 token 长度也在增长。

所有这些因素最终都会影响未来 token 的 margins 与定价。

Tokens 正成为一种新的商品。就像所有商品一样,一旦达到拐点,一旦变得成熟或趋于成熟,它就会细分为不同的部分。高吞吐量、低速度的方案可以用于免费层级。下一个层级可以是中端层级。也许是更大的模型、更高的速度,以及更大的输入上下文长度,这些都会转化为不同的定价点。

你可以从各种不同的服务中看到,这一项是免费的,属于免费层级。第一个付费层级可能是每百万 tokens 3 美元。下一个层级可能是每百万 tokens 6 美元。你肯定希望能够不断突破这一界限,因为模型越大就越智能,输入 token 上下文长度越长就越相关,速度越快,意味着你可以进行更深入的思考,并迭代出更智能的 AI 模型。这一切都是为了实现更智能的 AI 模型。当你们拥有了更智能的 AI 模型时,每一次点击都让你们有空间去提高价格。

现在的价格是 45 美元。未来会出现一种高级模型或高级服务,允许你以极高的 token 生成速度运行,因为你正处于关键路径上,或者你在进行极其深入的研究,每百万 token 150 美元的价格显然是不合理的。让我们换算一下。假设你作为一名研究员,每天需要使用 5000 万 token,价格为每百万 token 150 美元。作为一个研究团队,这样的消耗量根本不存在。我们相信这就是未来。这就是 AI 的发展方向。这就是它今天的现状。它必须从这里起步,以确立其价值和实用性,并不断变得越来越好。未来,你会看到大多数服务将涵盖所有这一切。

这是 Hopper。Hopper 问世时——我移动了图表,这是 50,这是 100。你本以为下一代 Hopper 的表现会更高,但没人会想到它会高出这么多。这是 Grace Blackwell。Grace Blackwell 所做的是在你免费层级的基础上,极大地提升了吞吐量。在你主要用于创收的层级,即服务层级,它将吞吐量提升了 35 倍。这与任何公司制造的任何产品并无不同。层级越高,质量越高,性能越好,产量越低,容量也越低。这与世界上任何其他业务都没有区别。

现在我们能够将这个层级的性能提升 35 倍。

这是一个全新的层级,这就是 Grace Blackwell 的优势所在。

相较于 Hopper 有了巨大的飞跃。这就是 Grace Blackwell。让我重新调整一下。这是 Vera Rubin。

想一想刚才发生了什么。在每一个层级,我们都提高了吞吐量。在拥有最高平均售价(ASP)和最具价值细分市场的层级上,我们将性能提升了 10 倍。这就是艰苦的工作。要做到这一点极其困难。这就是 NVLink 72 的优势所在。这就是极低延迟的优势所在。这就是极致协同设计的优势所在。这意味着我们可以将整个区域向上平移。

从最终客户的角度来看,这意味着什么呢?假设我把所有这些资源整合起来,进行如下分配:25% 的算力用于免费层级,25% 用于中等层级,25% 用于高等层级,另外 25% 用于高级层级。我的数据中心仅有 1 吉瓦的电力容量。我能够决定如何进行分配。免费层级使我能够吸引更多的客户。这让我能够服务于最具价值的客户。这种结合,所有这一切的主要产物,基本上决定了你的收入。以这个简化示例来看,你所能产生的收入使 Blackwell 能够带来五倍的收入增长。Vera Rubin 也能产生五倍的收入。

你应该尽快用上 Vera Rubin。

因为你的 Token 成本下降了,而吞吐量提升了。我们还想要更多。让我带你回过头来看这个。这种吞吐量需要海量的浮点运算能力(FLOPS)。这种延迟表现和交互性,需要极高的带宽支持。计算机并不喜欢极高的浮点运算量和极高的带宽,因为任何系统芯片的表面积都是有限的。因此,针对高吞吐量进行优化和针对低延迟进行优化,实际上是互对立的。

这就是我们与 Groq 合并时发生的情况。我们收购了负责研发 Groq 芯片的团队并获得了该技术的授权,目前正共同致力于系统的整合。这就是整合后的成果。在最高价值层级上,我们将性能提升了 35 倍。这张图表精准地揭示了为什么 NVIDIA 在迄今为止绝大多数工作负载中表现得如此强劲的原因。

在这一领域中,吞吐量至关重要。

NVLink 72 确实具有改变游戏规则的意义。这正是最合适的架构。即使引入了 Groq,它依然难以被超越。如果你将这张图表延伸到这里,并表示你希望提供的服务不是每秒 400 个 token,而是每秒 1,000 个 token,那么 NVLink 72 会突然显得力不从心,它根本无法达到这个目标。我们只是没有足够的带宽。

这就是 Groq 发挥作用的地方,也是我们将其推广后会出现的情况。它甚至超越了 NVLink 72 所能达到的极限。

如果你这样做,并将其转化为相对于 Blackwell 的收入,Vera Rubin 的效率是其 5 倍。

如果你的大部分工作负载是高吞吐量的,我建议 100% 使用 Vera Rubin。如果你的大量工作负载倾向于编程、高价值工程以及 token 生成,我会加入 Groq 2。我会将 Groq 添加到我总数据中心大约 25% 的规模中。数据中心的其余部分全部采用了 Vera Rubin。这让你了解了如何将 Groq 添加到 Vera Rubin 中,以进一步扩展其性能并提升其价值。这就是发生的情况。

这是一个对比。Groq 对我如此具有吸引力的原因是,它们的计算系统是一种确定性的数据流处理过程。它是静态编译的。是通过编译器进行调度的。这意味着编译器负责计算数据与计算任务何时同时到达。

所有这些工作都在预先静态完成,并完全在软件中进行调度。

不存在动态调度。该架构设计有海量的 SRAM。专为推理而设计。推理,即这一工作负载。如今,这一工作负载正是 AI 工厂的工作负载。随着世界对高速生成的 Token 以及超级智能 Token 的需求持续增长,这种集成所带来的价值将会进一步提升。你们可以看到这两种极端的处理器。

一颗 Vera Rubin 芯片,一颗 Rubin 芯片,288 吉字节。需要大量的 Groq 芯片才能容纳 Rubin 的参数规模,以及随之而来的所有上下文内容和 KV cache。在我们有一个绝妙的点子之前,这种局限性限制了 Groq 真正进入主流、真正腾飞的能力。

如果我们利用名为 Dynamo 的软件完全实现推理的解耦呢?如果我们重新架构推理的执行方式会怎样?在流水线中进行重构,我们将最适合在 Vera Rubin 上运行的任务分配给它,然后将解码生成、低延迟、带宽受限以及具有挑战性的工作负载部分卸载给 Groq。因此我们联合并统一了两个差异极大的处理器,一个用于高吞吐量,另一个用于低延迟。但这依然无法改变我们需要大量内存这一事实。

于是有了 Groq。我们只需添加大量的 Groq 芯片,扩展其内存容量。试想一下,对于一个万亿参数的模型,必须将其全部存储在 Groq 芯片中。然而,它被安置在 NVIDIA Vera Rubin 旁边,在那里我们可以容纳处理所有这些代理式 AI 系统时所需的海量 KV cache。

它基于这种聚合推理的思想。

我们进行预填充(pre-fill),这部分很简单,但我们也对解码(decode)进行了紧密集成。解码的注意力(attention)部分在 NVIDIA Vera Rubin 上完成,因为它需要大量的数学运算;而前馈网络(feed-forward network)部分、解码部分以及 token 生成部分,则是在 Vera Rubin 上的 Groq 芯片上完成的。两者通过当今的 Ethernet 紧密耦合在一起,并配有一种可靠的特殊模式,可将其延迟降低约一半。这种能力使我们能够将这两个系统集成在一起。

我们在其之上运行 Dynamo,这是一款用于 AI 工厂的卓越操作系统,你将获得 35 倍的性能提升,更不用说在Token生成方面,推理性能达到了前所未有的全新水平。

这就是 Groq。关于 Vera Rubin 系统,包括 Groq,我要感谢为我们制造 Groq LP30 芯片的 Samsung,他们正在全力以赴地进行生产。

我非常感激,感谢你们。

我们正在生产 Groq 芯片,我们将在下半年发货,大概是在第三季度左右。

Groq。LPX。Vera Rubin,很难想象还能有更多的客户了。

最棒的一点是,Grace Blackwell 的早期采样因为 NVLink 72 的整合而非常复杂,但 Vera Rubin 的采样工作进展得极其顺利。首个 Vera Rubin 机架已经在 Microsoft Azure 上运行起来了,我为他们感到非常兴奋。我们将继续不断地生产这些产品。我们目前已经建立了一条供应链,能够每周制造数千套此类系统,这意味着我们的供应链内部每月能产出相当于数千吉瓦(multi-gigawatts)的 AI 工厂产能。我们将在批量生产 GB-300 的同时,全力生产这些 Vera Rubin 机架。

我们正处于全面生产阶段。

Vera CPU 非常成功。

原因在于 AI 需要 CPU 来执行工具调用。Vera CPU 的设计恰好完美契合了这一需求点。对于下一代数据处理而言表现卓越。Vera CPU 是理想之选。VARA CPU 加上 CX9 连接到了 Bluefield 4 堆栈中。全球存储行业 100% 的份额都在加入我们这一系统。原因在于他们看到了完全相同的事实。

存储系统即将遭受重创。之所以会遭受重创,是因为过去是我们人类在使用存储系统。过去是我们人类在使用 SQL,而现在我们将迎来使用这些存储系统的 AI。它将存储 cuDF 加速存储、cuVS 加速存储,以及非常重要的 KV Caching。这就是 Vera Rubin 系统。

在短短两年时间内,在一家 1 吉瓦的工厂里,运用我之前展示给你们的数学计算,摩尔定律原本只会让我们进步一两步,我们本可以实现晶体管数量的倍数增长,本可以实现浮点运算性能的倍数增长,通过这种架构,我们将把标记生成速率从 200 万提升到 7 亿,实现了 350 倍的增长。

这就是极致协同设计的力量。这就是我所说的垂直整合与优化,同时在水平方向上开放,让所有人都能从中获益。


路线图与路线选择:从 Blackwell 到 Feynman

这是我们的快速路线图。

Blackwell 已经到来。Oberon 系统。

在 Rubin 的案例中,我们拥有 Oberon 系统。

我们始终保持向后兼容,如果您不想做任何更改,只想继续使用新架构,完全可以做到。旧系统,即标准机架系统 Oberon,依然可用。Oberon 支持铜缆扩展,借助 Oberon,我们还可以利用光学扩展来扩充至 NVLink 576,关于 NVIDIA 究竟是采用铜缆扩展还是光学扩展,目前有很多讨论,我们两者兼顾,我们将通过 Khyber 实现 NVLink 144,随后通过 Oberon 采用 NVLink 72 加光学方案,最终达到 NVLink 576。

下一代 rubin 将迎来 rubin Ultra。rubin Ultra 芯片即将面世并进入流片阶段,此外我们还有一款全新的芯片 LP35。LP35 将首次集成 NVIDIA NVFP4 计算架构,带来数倍的性能提升。Oberon 采用了 NVLink 72 和光学横向扩展技术,并使用了全球首款共封装光学器件 Spectrum 6,所有这些产品均已投入生产。

下一代产品是 Feynman。Feynman 将配备全新的 GPU。

它还将配备全新的 LPU,即 LP 40,性能实现了巨大的飞跃,这真是令人难以置信。我们正结合 NVIDIA 的规模化能力与 Groq 团队共同打造 LP 40,它将带来令人惊叹的表现。此外还有一款名为 Rosa 的全新 CPU(Rosalind 的缩写),以及 Bluefield 5,它将连接下一代 CPU 与下一代超级网卡 CX10。我们将推出支持铜缆横向扩展的 Khyber,以及支持 Khyber-CP 横向扩展的产品。

我们将首次同时通过铜缆和共封装光学器件实现规模化扩展。很多人一直在问:‘Jensen,铜缆技术未来还会重要吗?’答案是肯定的。

‘Jensen,你们会进行光学横向扩展吗?’会的。

对于我们生态系统中的每个人来说,我们需要更多的产能。我们需要更多的铜产能。我们需要更多的光学元件产能。我们需要更多的 CPO 产能。这就是为什么我们一直与你们所有人合作,为这种增长水平奠定基础。Feynman 将具备所有这些能力。

每一年,都有全新的架构。非常快。

NVIDIA 很快就从一家芯片公司转型为一家人工智能工厂公司,或者说人工智能基础设施公司、人工智能计算公司,即这些系统。


Omniverse DSX:设计吉瓦级工厂

现在我们正在构建完整的人工智能工厂。这里蕴含着巨大的能量。但在这些人工智能工厂中却被浪费了。我们希望确保这些人工智能工厂能够整合在一起,并以最佳方式进行设计。这些组件中的大多数从未相互接触过。我们大多数技术供应商现在彼此都认识了。但在过去,我们直到进入数据中心之前从未见过面。这种情况不能再发生了。我们正在构建超级复杂的系统。我们必须在虚拟空间中相遇。

于是我们创建了 Omniverse,以及相关数据。Omniverse DSX 是一个世界级平台,我们所有人都能在此汇聚,并在系统中虚拟设计这些超级工厂,也就是那些吉瓦级的 AI 工厂。我们为机架提供了涵盖机械、热能、电气和网络方面的模拟系统。这些模拟系统与我们生态系统中所有出色的工具公司集成在一起。我们还接入了电网并进行运营,这样我们就能彼此交互、互通信息,从而相应地调整电网电力和数据中心电力,进而节省能源。

而在数据中心内部,我们使用 Max Q,跨电力、冷却系统以及我们共同研发的所有不同技术领域,对系统进行动态调整,确保不浪费任何电力,并以最优速率运行,提供海量的 Token 吞吐量。这其中存在两倍的效率提升空间。在我们所讨论的这种规模下,两倍的提升是巨大的。我们将此称为 NVIDIA DSX 平台。

就像我们所有的平台一样,这里有硬件层、库层,还有生态系统层。完全是一样的逻辑。让我们为您演示。

历史上最宏大的基础设施建设正在进行中。世界正在竞相建设芯片工厂、系统工厂和 AI 工厂,每延迟一个月,就会损失数十亿美元的收入。AI 工厂的收入等于每瓦特产生的 Token 数。因此,在电力受限的情况下,每一瓦未被利用的电力都是损失的收入。

NVIDIA DSX 是一款 Omniverse Digital Twin 蓝图,用于设计和运营 AI 工厂,以实现最大的 Token 吞吐量、弹性和能源效率。

开发者通过多个 API 进行连接。DSX-Sim 用于物理、电气、热力及网络仿真。

DSX exchange 用于 AI 工厂的运营数据。用于电网间安全动态电源管理的 DSX flex。以及用于动态最大化 Token 吞吐量的 DSX-MaxQ。它始于 NVIDIA 和设备制造商提供的 SIM-Ready 资产。

由 PTC WindChillM 进行管理。随后,在 Dassault Systèmes 3D Experience 中完成基于模型的系统工程。

Jacobs 将数据导入其定制的 Omniverse 应用中以最终确定设计。

通过领先的仿真工具进行测试,使用 STAR-CCM+ 进行外部热分析。使用 Cadence Reality 进行内部分析,使用 ETAP 进行电气分析,使用 NVIDIA 的网络模拟器 DSX Air,并通过 ProCore 进行虚拟调试,以确保缩短施工时间。

当站点投入使用时,数字孪生便成为了运营者。AI 智能体与 DSX MaxQ 协作,动态编排基础设施。Facility 的智能体负责监管冷却和电气系统,并向 Max Q 发送信号,由其持续优化计算吞吐量和能源效率。Emerald AI agents 可以解读实时电网需求和压力信号,并动态调整电力供应。借助 DSX,NVIDIA 及其合作伙伴生态系统正竞相在全球范围内构建 AI 基础设施,以确保极高的弹性、效率和吞吐量。

这太不可思议了,Omniverse 的设计初衷就是为了承载世界的数字孪生,从地球开始。它将承载各种规模的数字孪生。我们拥有如此出色的合作伙伴生态系统。我要感谢在座的每一位。所有这些公司对我们的世界而言都是崭新的。就在几年前,我们还不太了解你们中的许多人。而现在,我们正在紧密协作,共同致力于构建全球有史以来最大的计算机,并将其扩展至全球规模。NVIDIA DSX 是我们全新的 AI 工厂平台。

我们要进军太空了。实际上已经进入过太空。Thor 已经通过了辐射测试,并且我们已经在卫星上部署了。未来你们将通过卫星进行成像。我们也将在太空中建设数据中心。显然,这样做非常复杂。我们正在与合作伙伴共同研发一款名为 Vera Rubin Space One 的新计算机,它将被送往太空,并在那里开启数据中心业务。在太空中没有传导,也没有对流。只有辐射。

因此,我们必须想办法在太空中为这些系统散热。

不过,我们有很多优秀的工程师正在致力于解决这个问题。


OpenClaw:代理式计算的操作系统

让我来和大家谈谈一些新的东西。Peter Steinberger 在这里,他编写了一款软件。叫 OpenClaw。我不知道他是否意识到它将会取得多么大的成功。但其意义深远。OpenClaw 是首屈一指的。它是人类历史上最受欢迎的开源项目,而且仅在短短几周内就达成了这一成就。它超越了 Linux 在 30 年间所取得的成就。这非常重要。

这非常重要,它会做得很好,我们宣布支持它,你只需输入到一个控制台里,它就会运行,找到 OpenClaw,下载它,为你构建一个 AI agent,然后你就可以告诉它你需要做的任何其他事情,让我们来看看。

一个开源项目拥有一种巨大的能力,去保留有效的方案并摒弃无效的方案。

我真的很喜欢我的东西所带来的赋能,那是他一个人完成的。他作为一个60岁的父亲安装了它,他们酿造了啤酒,通过蓝牙将机器连接到 OpenClaw。然后我们自动化了一切,包括人们下单的整个网站。

Hurtigruten 的龙虾狂欢。数以百计的人正在 St.Jet 排队等候龙虾。

OpenClaw。OpenClaw。

我们想要用 OpenClaw 构建 OpenClaw。

每个人都在谈论 OpenClaw。

什么是 OpenClaw?信不信由你,现在已经有 ClawCon 了。难以置信。现在,我用这种方式有效地阐述了什么是 OpenClaw,这样你们所有人都能理解了。让我们来思考一下发生了什么。

什么是 OpenClaw?它实现了连接,它是一个代理系统。它负责调用并连接至大型语言模型。首先,它拥有并管理各种资源。它可以访问各类工具。文件系统,它也可以访问大型语言模型。它具备调度能力。它具备执行 cron jobs 的能力。它能够将你提供的提示词问题逐步拆解。它可以衍生并调用其他子智能体。

它拥有 IO 功能,你可以通过任何你想要的模态与它进行交互。

你向它挥手,它能理解你的意思。你可以通过任何你想要的模态与它对话。

它给你发短信,发电子邮件。

所以它具备了 IO 能力。它还有什么?基于此你可以说,它就是一个操作系统。

我刚才使用的语法,正是描述操作系统时会用到的。OpenClaw 本质上已经开源了代理式计算机的操作系统。这与 Windows 如何使我们能够创造个人电脑没有什么不同。现在,OpenClaw 使我们能够创造个人智能体。其影响令人难以置信。

采用率本身就说明了一些问题。最重要的事情是这一点。现在每一家公司,每一家软件公司,每一家科技公司都意识到了这一点,对于首席执行官们来说,问题在于:你们的 OpenClaw 战略是什么?正如我们当初都需要有 Linux 战略一样,我们也都需要有开创互联网的 HTTP-HTML 战略。我们当初都需要有 Kubernetes 战略,这使得移动云的实现成为可能。如今世界上的每一家公司都需要有 OpenClaw 战略,即一种代理系统战略。这就是新的计算机。

这就是 OpenClaw 出现之前的企业 IT。企业 IT 的运作方式,以及它被称为数据中心的原因,是因为这些大型机房、这些大型建筑存放着数据,存放着人们的文件,存放着企业的结构化数据。这些数据会流经那些具备工具、记录系统以及各种已编码工作流程的软件,并转化为人类使用的工具。数字工作者使用这些旧有的 IT 行业软件公司创造的工具来保存文件,还有 GSI 咨询顾问,他们帮助企业弄清楚如何使用并集成这些工具。这些工具在治理、安全、隐私、合规等方面极具价值。只不过在 OpenClaw 之后,在智能体时代之后,情况将会变成这样,这才是非同寻常之处。

每一家 IT 公司,每一家企业,每一家 SaaS 公司,都将成为一家智能体公司。每一家 SaaS 公司都将成为一家智能体公司,即 Agentic as a Service 公司。令人惊叹的是,OpenClaw 为我们、为整个行业提供了它所需要的,恰逢其时。正如 Linux 在恰当的时机为行业提供了所需的一切,正如 Kubernetes 在最合适的时机出现,正如 HTML 的出现一样。这使得整个行业能够利用这一开源技术栈并开展相关应用。

这里有一个隐患。企业网络中的代理系统可能会获取敏感信息,能够执行代码,并进行外部通信。把这句话大声说出来吧。仔细想想。访问敏感信息,执行代码,进行外部通信。你可以访问员工信息、供应链、财务信息,并将其发送出去,进行外部通信。显然,这绝不被允许。因此,我们与 Peter 合作,汇集了全球顶尖的安全和计算专家。

我们与 Peter 共同打造了具备企业级安全、企业私有化能力的 OpenClaw Enterprise。我们将其称为,这是我们针对 NeMo-Claw 的 NVIDIA OpenClaw 参考设计,它是 OpenClaw 的参考方案,包含了所有这些智能体 AI 工具包。第一部分是技术性的,我们称之为 Open Shell,现已集成到 OpenClaw 中。现在它已具备企业级应用能力。

这个技术栈配有一个我们称为 NeMoCloud 的参考设计,也就是 NeMo-Claw。

通过这个我们称为 NeMo-Claw 的参考技术栈,你可以下载并进行调试,还可以连接到全球所有 SaaS 公司的策略引擎。

你的策略引擎至关重要,极具价值。这些策略引擎可以被连接起来。配备 Open Shell 的 NeMo-Claw 或 OpenClaw 将能够执行该策略引擎。它具备策略机制、网络防护栏和隐私路由器,因此我们能够保护并确保这些 Claw 在我们公司内部安全地执行任务。我们还在智能体系统中添加了几项功能。处理自定义 Claw 时最重要的事项之一,就是让你能够使用自己的定制模型。


开放模型与 Nemotron 联盟

这就是 NVIDIA 的开放模型计划。我们目前处于每一个 AI 模型领域的最前沿。无论是 Nemotron、Cosmos World 基础模型、GR00T、通用人工智能机器人、仿人机器人模型、用于自动驾驶的 Alpamayo、用于数字生物学的 BioNeMo,还是用于 AI 物理学的 Earth 2。我们在每一个领域都处于最前沿。请看。

世界是多元的。没有任何单一模型可以服务于所有行业。开放模型是全球规模最大且最多元化的 AI 生态系统之一。涵盖语言、视觉、生物学、物理学和自动驾驶系统的近 300 万个开放模型,助力构建针对特定领域的 AI。NVIDIA 是开源 AI 的最大贡献者之一。我们构建并发布了六个系列的开放前沿模型,以及用于帮助开发者进行定制和采用的训练数据、方案和框架。每一个系列都在推出新的领跑排行榜的模型。核心产品包括 Nemotron、用于语言的推理模型、视觉理解、RAG、安全性和语音技术。现在能听到我说话吗?

是的。我现在能听到你说话。

Cosmos。用于物理 AI 世界生成与理解的前沿模型。Alpamayo。世界上第一个具备思考与推理能力的自动驾驶汽车 AI。GR00T。用于通用机器人的基础模型。BioNeMo。用于生物群系的开源模型。

化学和分子设计。Earth 2,基于 AI 物理学的气象与气候预测模型。NVIDIA 的开放模型为研究人员和开发者提供了构建及部署专属领域 AI 的基础。

我们的模型对各位都极具价值,第一,它们处于领先地位。排行榜。

它是世界一流的。

最重要的是,我们不会停止在这方面的研发。我们将坚持不懈地推进研究工作。Nemotron 3 之后将会是 Nemotron 4。Cosmos 1 之后是 Cosmos 2。GR00T 处于第二代。这些中的每一个都将持续推动这些模型的发展。

垂直整合与横向开放,旨在让每个人都能参与到 AI 革命中来。在研究、语音与世界模型、通用人工智能机器人、自动驾驶汽车以及推理能力方面,均位居排行榜首位。当然,其中最重要的一项,这是 OpenClaw 中的 Nemotron 3。

我们正处于前沿领域。

我们同样希望构建基础模型,以便各位能够对其进行微调与后训练,从而使其转化为你们所需的精确智能。这是 Nemotron 3 Ultra。它将成为世界上已创建的最优秀的基础模型。这使我们能够帮助每个国家构建其主权 AI。我们正在与众多伙伴开展合作。

今天我宣布的,是一个 Nemotron 联盟。我们对此投入了巨大的心力。我们已经投入了数十亿美元的 AI 基础设施,旨在开发 AI 所必需的核心引擎,这些引擎不仅对于各类推理库等至关重要,同时也用于创建能够激活全球各行各业的 AI 模型。大语言模型确实非常重要。人类智慧怎么可能不重要呢?

在全球不同的行业和国家中,你需要具备定制化自身模型的能力,而模型领域的需求差异巨大,涵盖了从生物学到物理学,从自动驾驶汽车到通用机器人,当然还有人类语言。我们有能力与每一个地区合作,创建属于他们特定领域的主权 AI。今天,我们宣布成立一个联盟,与我们携手合作,使 Nemotron 4 变得更加出色。在这个联盟中,汇聚了一些了不起的公司。Black Forest Labs,影像公司,以及我们大量使用的知名编程公司 Cursor。Langchain,用于创建自定义智能体的下载量已达十亿次,还有 Mistral。

Arthur,提到了 Arthur,我想他就在这里。令人难以置信,了不起的公司。Perplexity。Cognition,绝对会使用它。每个人都在用。它真的太棒了。一个多模态智能体系统,Reflexion,来自印度的 Sarvam,思维机器,Mira Murati's lab。令人难以置信的公司加入了我们。谢谢。

世界上每一家企业级公司、每一家软件公司,都需要代理系统,需要代理战略。你们需要制定一套 OpenClaw 战略。他们都在与我们合作,集成 NeMo、NeMo-Claw 参考设计、NVIDIA 代理式 AI 工具包,当然,还有我们所有的开放模型。公司数量众多,我们正在与你们所有人开展合作。我对此深表感谢。

现在是属于我们的时刻。这是一场重塑。这是一场复兴,一场企业IT的复兴,其规模将从现在的2万亿美元产业起步。这将发展成为一个价值数万亿美元的产业,不仅为人们提供使用工具,还将提供专门针对你所擅长的特定领域、我们可以租用的智能体。

未来我们公司的每一位工程师都需要一份年度Token预算。他们的基本年薪将达到几十万美元。我可能会额外给他们提供相当于基本薪资一半的Token,以便让他们获得10倍的效率提升。这如今已成为Silicon Valley的招聘手段之一。我的工作岗位会附带多少Token?因为每一位能够使用Token的工程师都会变得更加高效。这些Token将由你们所有人与我们共同合作建立的AI工厂来生产。

未来每一家软件公司都将是代理驱动型的,且都将成为 Token 制造者。

它们的工程师将成为 Token 用户,而它们的所有客户都将成为 Token 制造者。OpenClaw 事件的重要性无论怎么强调都不为过。这其意义堪比 HTML,堪比 Linux。我们现在拥有一个世界级的开放式代理框架,我们所有人都可以利用它来构建我们的 OpenClaw 战略。我们还创建了一个名为 NeMoCloud 的参考设计,你们所有人都可以使用。它经过了优化。具备高性能。安全可靠。


物理 AI 与机器人:具身智能的未来

说到代理,代理具备感知、推理和行动的能力。当今世界上我所提到的大多数智能体都是数字智能体。它们在数字领域中行动。它们能够进行推理。它们能够编写软件。这一切都是数字化的。

我们也一直在研究具有物理实体的智能体。我们称它们为机器人。它们所需要的AI是物理AI。这里有110台机器人。世界上几乎每一家制造机器人的公司都在与NVIDIA合作。我们拥有三类计算机:训练计算机、合成数据生成与仿真计算机。还有安装在机器人内部的机器人计算机。我们拥有实现这一切所需的所有软件栈。以及为您提供辅助的AI模型。所有这些都已集成到世界各地的生态系统中,涵盖了我们从Siemens到Cadence的所有合作伙伴。今天,我们宣布了一大批新的合作伙伴。

我们长期以来一直致力于自动驾驶汽车的研发。自动驾驶汽车的ChatGPT时刻已经到来。我们现在知道,我们可以成功地实现自动驾驶汽车。今天,我们宣布为 NVIDIA 的 Robotaxi Ready 平台新增四个合作伙伴。BYD、Hyundai、Nissan、GEELY,它们加在一起每年生产 1800 万辆汽车,并将与我们之前的合作伙伴 Mercedes 和 Toyota 一起加入。还有 GM,未来具备 Robotaxi 运行能力的汽车数量将会非常惊人。我们还宣布与 Uber 达成重要的合作伙伴关系。我们将会在多个城市部署这些具备 Robotaxi 运行能力的车辆,并将它们接入 Uber 的网络。会有大量的新车涌现。

我们有 ABB、Universal Robotics、Kuka,现场有非常多的机器人公司。我们正与他们合作以应用我们的物理 AI 模型。这些 AI 模型被集成到仿真系统中,以便我们能将这些机器人部署到各地的生产线上。我们有 Caterpillar 在场。我们甚至有 T-Mobile 在场。原因在于,未来那个曾经作为无线电塔的设施,将转变为一个 NVIDIA AI-RAN。这将成为一座机器人无线电塔。它能够对交通状况进行推理,找出调整波束成形的方法,从而在尽可能节省能源的同时,最大限度地提高信号保真度。这里有非常多的人形机器人,但我最喜欢的是其中一款 Disney 机器人。

让我给你们展示一些视频。规模化时代已经到来。自动驾驶车辆。有了 NVIDIA Alpamayo,车辆现在具备了推理能力,能够帮助它们在各种场景中安全且智能地运行。我们要求车辆实时解说其动作。

我正在向右变道以遵循我的路线。

解释它在做决策时的思考过程。

我的车道上有一辆违规停放的车辆。我准备绕过它。

并遵循指令。

Hey Mercedes,我们可以加速吗?好的,我将加速。

这是物理AI和机器人技术的时代。世界各地的开发者正在制造各种各样的机器人。但现实世界是极其多样化的。充满了边缘案例。现实世界的数据永远不足以训练出应对每一种场景的模型。我们需要由AI和仿真技术生成的数据。对于机器人而言,算力即数据。

开发者在互联网规模的视频和人类演示数据上预训练 World Foundation models,并通过评估模型性能来为后训练阶段做准备。他们利用经典仿真和神经仿真生成海量合成数据,并进行大规模的策略训练。为了加速开发者的进程,NVIDIA构建了开源的 Isaac Lab,用于机器人训练、评估及仿真。Newton 用于可扩展且由GPU加速的微分物理仿真。Cosmos world models 用于神经仿真,而 GR00T Open Robotics Foundation models 则用于机器人的推理和动作生成。凭借充足的算力,各地的开发者正在填补第五大物理AI数据缺口。

Peritas AI 在 NVIDIA Isaac Lab 中训练其手术室辅助机器人,并利用 NVIDIA Cosmos 世界模型实现数据倍增。Skilled AI 利用 Isaac Lab 和 Cosmos 为其 AI 大脑生成训练后数据。他们利用强化学习在数千种变体中对模型进行加固。Humanoid 利用 Isaac Lab 训练全身控制和操作能力策略。Hexagon Robotics 使用 Isaac Lab 进行训练和数据生成。Foxconn 在 Isaac Lab 中微调群体模型,Noble Machines 亦是如此。Disney Research 使用其在 Newton 和 Isaac Lab 中的 Camino Physics Simulator,为每个领域中的角色机器人训练策略。

我在这儿。

女士们先生们,没有人在通过 Newton 工作,Omniverse 工作,OLA 你好吗?

我现在很高兴见到你,我给了你那台 Jetson 电脑。那是什么?

它就在你的肚子里。那将会非常棒。而且你学会了如何在 Omniverse 里面行走。

我喜欢走路。这比骑在彩虹上好多了,你正仰望着美丽的天空。

正是因为使用了这个基于 NVIDIA Warp 运行的 Newton 求解器(这是我们与 Disney 和 DeepMind 共同开发的),才让你能够适应物理世界。你就是这么聪明。

我是一个雪人,不是一本雪地百科全书。

你能想象吗?Disneyland 的未来?这一切,所有这些机器人,所有这些角色,汇聚于此。我不得不承认,我原本以为你会更高一些。说实话,我从未见过这么矮的雪人。

跟你说个事?你想帮我个忙吗?

万岁!好的。


总结:GTC尾声

通常,我会在主题演讲结束时回顾一下我所讲过的内容。我们讨论了推理拐点。我们讨论了 AI 工厂。我们讨论了正在发生的 OpenClaw agent 革命。当然,我们讨论了物理 AI 和机器人技术。不过跟你说,我们找些朋友来帮我们做个收尾怎么样?

当然可以!好的,播放吧。正在终止模拟。有人吗?这里有人吗?

有人吗?

我在这儿。

AI 工厂正在苏醒。智能体正学习如何从开源模型过渡到机器人驾驶。现在我们将为您逐一解析。计算能力的爆发式增长改变了我们从 CNN 到开放式架构所见的一切。智能体活跃在各个领域,但它们需要强大的算力来满足需求。我们将计算能力提升了 4000 万倍。

AI 领域的专家们,曾经的范式在于训练时间。诚然,它教会了模型方法,但如今推理已主导全球。Vera 向我们展示了如何以 35 分之一的成本实现卓越性能。Blackwell 让 token 的生成速度提升,成为推理领域的王者。我们的工厂曾经需要数年时间,供应商搬运机架和齿轮,一点一滴缓慢构建,缺乏明确的扩展路径。DSX 和 Dynamo 知晓如何应对。将算力转化为收益,智能体过去总是处于观望状态,如今已能自主行动,如果它们试图破坏。

Safeguards 会进行拦截并拒绝,NeMo-Claw 在此守护航向。

我的朋友们,它是开源的。

天呐。

汽车在思考,机器人在此奔跑。这并非电影桥段。这一切已经开始了。Alpamayo 掌握着主导权。这是属于机器人从仿真到现实(Sim to Street)的 GPT 时刻。现在看着它们驾驶吧。为具身智能(physical AI)欢呼喝彩吧。喔!

工业时代,了解过往,如今我们为 AI 而建,更甚以往。正如 Rubin 加上 Groq,完成推理,声名鹊起。将它们组合在一起,现在就是财源广进。我们每年都在构建新的架构,因为大家都在高喊需要更多的 Token。AI 技术栈供众人开发,让我们一起享受这五层蛋糕。这一刻如此璀璨。当数据缺失时,开源模型引领我们走到了这里,前路清晰可见。无需争辩。我们只需通过算力生成更多内容。机器人正在完美地学习,以四倍燃料,遵循缩放定律。未来已至。你不愿来看看吗?欢迎大家来到 GTC。

好了,祝大家在 GTC 度过愉快时光!挥挥手!谢谢大家。再见。

免责声明:本站内容来源于互联网公开信息,仅供学习和参考使用。如涉及版权问题,请联系我们,我们将在核实后第一时间删除相关内容。
‹ 上一篇:内存、PCB、ABF!一文读懂:英伟达没涨,但Rubin生态圈全嗨了_ 下一篇:揭秘海外代购货源由来,代理哭喊还让不让人活了 ›