NVIDIA 首席执行官黄仁勋在 3 月 18 日于旧金山举行的 NVIDIA GTC 大会上发表主题演讲时宣布, NVIDIA 最新的 GPU 平台是 Blackwell(图 A),AWS、微软和谷歌等公司计划采用该平台来执行生成式 AI 和其他现代计算任务。何塞,加利福尼亚州。

图A

NVIDIA GTC揭秘:Blackwell架构2024年底助推AI产品飞跃 (https://www.qianyan.tech/) IC硬件 第1张
NVIDIA Blackwell 架构。图片:NVIDIA

基于 Blackwell 的产品将于 2024 年底从全球 NVIDIA 合作伙伴处进入市场。Huang 宣布了 NVIDIA 及其合作伙伴提供的一系列附加技术和服务,并表示生成式 AI只是加速计算的一个方面。

“当你变得加速时,你的基础设施就是 CUDA GPU,”黄说,他指的是 CUDA、NVIDIA 的并行计算平台和编程模型。 “当这种情况发生时,它的基础设施与生成人工智能相同。”

Blackwell 支持大型语言模型训练和推理

黄说,Blackwell GPU 平台包含两个芯片,通过每秒 10 TB 的芯片间互连连接,这意味着每一侧都可以基本上像“两个芯片认为它是一个芯片”一样工作。它拥有2080亿个晶体管,采用NVIDIA 2080亿个4NP台积电工艺制造。它拥有 8 TB/S 内存带宽和 20 pentaFLOPS 的 AI 性能。

NVIDIA 表示,对于企业而言,这意味着 Blackwell 可以对高达 10 万亿个参数的 AI 模型进行训练和推理。

Blackwell 通过以下技术得到增强:

  • 第二代 TensorRT-LLM 和 NeMo Megatron,均来自 NVIDIA。
  • 与第一代 Transformer 引擎相比,框架的计算和模型大小增加了一倍。
  • 使用本机接口加密协议进行机密计算,以确保隐私和安全。
  • 专用解压缩引擎,用于加速数据分析和数据科学中的数据库查询。

关于安全性,黄说,可靠性引擎“对 Blackwell 芯片上的每一位内存以及与其相连的所有内存进行自检,即系统内测试。就好像我们在运送 Blackwell 芯片时配备了自己的测试仪。”

基于 Blackwell 的产品将由合作伙伴云服务提供商、NVIDIA 云合作伙伴计划公司和精选主权云提供。

Blackwell 系列 GPU 沿袭了 Grace Hopper 系列 GPU,后者于 2022 年首次亮相(图 B)。 NVIDIA 表示 Blackwell 将在万亿参数 LLM 上运行实时生成 AI,其成本和能耗比 Hopper 系列低 25 倍。

图B

NVIDIA GTC揭秘:Blackwell架构2024年底助推AI产品飞跃 (https://www.qianyan.tech/) IC硬件 第2张
NVIDIA 首席执行官黄仁勋 (Jensen Huang) 于 3 月 18 日在加利福尼亚州圣何塞举行的 NVIDIA GTC 2024 上展示 Blackwell(左)和 Hopper(右)GPU。图片来源:Megan Crouse/TechRepublic

NVIDIA GB200 Grace Blackwell Superchip 连接多个 Blackwell GPU

除了 Blackwell GPU 之外,该公司还发布了 NVIDIA GB200 Grace Blackwell Superchip,它将两个 NVIDIA B200 Tensor Core GPU 与 NVIDIA Grace CPU 连接起来,为 LLM 推理提供了一个新的组合平台。 NVIDIA GB200 Grace Blackwell Superchip 可与该公司新推出的 NVIDIA Quantum-X800 InfiniBand 和 Spectrum-X800 以太网平台连接,速度高达 800 GB/S。

GB200 将于今年晚些时候在 NVIDIA DGX Cloud 上以及通过 AWS、Google Cloud 和 Oracle Cloud Infrastructure 实例提供。

新的服务器设计展望了万亿参数的人工智能模型

GB200 是新发布的 GB200 NVL72 的一个组件,GB200 NVL72 是一种机架级服务器设计,将 36 个 Grace CPU 和 72 个 Blackwell GPU 封装在一起,可实现 1.8 exaFLOPs 的 AI 性能。 NVIDIA 正在展望大规模、万亿参数的法学硕士的可能用例,包括对话持久记忆、复杂的科学应用和多模式模型。

GB200 NVL72 结合了第五代 NVLink 连接器(5,000 条 NVLink 电缆)和 GB200 Grace Blackwell 超级芯片,可提供巨大的计算能力,Huang 称之为“一个机架中的 exoflops 人工智能系统”。

“这超过了互联网的平均带宽……我们基本上可以将所有内容发送给每个人,”黄说。

“我们的目标是不断降低计算成本和能源——它们是直接相关的——”黄说。

冷却 GB200 NVL72 每秒需要两升水。

下一代 NVLink 带来加速的数据中心架构

第五代 NVLink 在多达 576 个 GPU 之间提供每个 GPU 通信 1.8TB/s 的双向吞吐量。 NVLink 的这一迭代旨在用于当今最强大的复杂法学硕士。

“未来,数据中心将被视为人工智能工厂,”黄说。

NVIDIA 推理微服务简介

可能的“人工智能工厂”的另一个要素是 NVIDIA 推理微服务 (NIM),黄将其描述为“一种接收和打包软件的新方式”。

NVIDIA 的 NIM是微服务,包含运行生成式 AI 所需的 API、特定领域代码、优化的推理引擎和企业运行时。这些云原生微服务可以根据客户使用的 GPU 数量进行优化,并且可以在云中或自有数据中心中运行。 NIM 允许开发人员在一个包中使用 API、NVIDIA CUDA 和 Kubernetes。

请参阅:根据 TIOBE 指数, Python 仍然是最流行的编程语言。 (科技共和国) 

NIM 利用人工智能来构建人工智能,简化一些繁重的工作,例如构建聊天机器人所需的推理和培训。通过特定领域的 CUDA 库,NIM 可以针对高度特定的行业(例如医疗保健)进行定制。

黄说,开发人员可以“组建一个人工智能团队”来处理 NIM 内的流程,而不是编写代码来对人工智能进行编程。

“我们希望构建聊天机器人——人工智能副驾驶——与我们的设计师一起工作,”黄说。

NIM 将于 3 月 18 日开始提供。开发人员可以免费试用 NIM,并通过 NVIDIA AI Enterprise 5.0 订阅来运行它们。 NIM 可在 Amazon SageMaker、Google Kubernetes Engine 和 Microsoft Azure AI 中使用,并且可以与 AI 框架 Deepset、LangChain 和 LlamaIndex 进行互操作。

NVIDIA AI Enterprise 5.0 版发布新工具

NVIDIA 推出了 AI Enterprise 5.0 版本,其 AI 部署平台旨在帮助组织向客户部署生成式 AI 产品。 NVIDIA AI Enterprise 5.0 添加了以下内容:

  • NIM。
  • CUDA-X 微服务适用于各种 GPU 加速的 AI 使用案例。
  • AI Workbench,一个开发者工具包。
  • 支持红帽 OpenStack 平台。
  • 扩展了对新 NVIDIA GPU、网络硬件和虚拟化软件的支持。

NVIDIA 的检索增强生成大型语言模型运算符现已进入 AI Enterprise 5.0 的抢先体验阶段。

AI Enterprise 5.0 可通过 Cisco、Dell Technologies、HP、HPE、Lenovo、Supermicro 和其他提供商获取。

NVIDIA 在 GTC 2024 上发布的其他重要公告

黄仁勋在 NVIDIA GTC 2024 主题演讲期间宣布了一系列涉及加速计算和生成式 AI 的新产品和服务。

NVIDIA 宣布推出 cuPQC,这是一个用于加速后量子密码学的库。研究后量子密码学的开发人员可以联系 NVIDIA 以获取有关可用性的更新。

NVIDIA 的 X800 系列网络交换机可加速 AI 基础设施。具体来说,X800 系列包含 NVIDIA Quantum-X800 InfiniBand 或 NVIDIA Spectrum-X800 以太网交换机、NVIDIA Quantum Q3400 交换机和 NVIDIA ConnectXR-8 SuperNIC。 X800 交换机将于 2025 年上市。

NVIDIA 主题演讲中详细介绍的主要合作伙伴包括:

  • NVIDIA 的全栈 AI 平台将从 3 月 18 日开始出现在 Oracle Enterprise AI 上。
  • AWS 将提供对基于 NVIDIA Grace Blackwell GPU 的 Amazon EC2 实例和具有 Blackwell 安全性的 NVIDIA DGX 云的访问。
  • NVIDIA 将通过即将登陆 Google Cloud 的 NVIDIA Grace Blackwell AI 计算平台和 NVIDIA DGX Cloud 服务来加速 Google Cloud 的发展。谷歌尚未确认可用日期,但很可能是 2024 年末。此外,自 3 月 18 日起,由 NVIDIA H100 驱动的 DGX Cloud 平台已在 Google Cloud 上全面可用。
  • Oracle 将在 Oracle 云基础设施上的 OCI Supercluster、OCI Compute 和 NVIDIA DGX Cloud 中使用 NVIDIA Grace Blackwell。自 3 月 18 日起,部分Oracle-NVIDIA 联合主权 AI 服务已推出。
  • 微软将采用 NVIDIA Grace Blackwell Superchip 来加速 Azure。预计将于 2024 年晚些时候推出。
  • 戴尔将使用 NVIDIA 的 AI 基础设施和软件套件创建 Dell AI Factory,这是一种端到端 AI 企业解决方案,将于 3 月 18 日通过传统渠道和 Dell APEX 提供。戴尔将在未来某个未公开的时间使用 NVIDIA Grace Blackwell Superchip 作为机架规模、高密度、液冷架构的基础。 Superchip将与戴尔的PowerEdge服务器兼容。
  • SAP 将在其 Joule copilot 中添加 NVIDIA 检索增强生成功能。此外,SAP 将使用 NVIDIA NIM 和其他联合服务

“整个行业都在为 Blackwell 做准备,”黄说。

NVIDIA AI 芯片的竞争对手

NVIDIA 主要在提供企业人工智能方面与 AMD 和英特尔竞争。高通、SambaNova、Groq 和各种云服务提供商在生成式 AI 推理和训练方面处于同一领域。

AWS 拥有其专有的推理和训练平台:Inferentia 和 Trainium。除了与 NVIDIA 合作开发多种产品外,微软还拥有自己的 AI 训练和推理芯片:Azure 中的 Maia 100 AI 加速器。