天气与日历

英伟达发布AI人工智能芯片B200、人形机器人模型和超级计算机集群等新品

1
回复
1544
查看
[ 复制链接 ]

58

主题

8

回帖

4万

积分

门户管理员

积分
48844
本帖最后由 无序 于 2024-3-21 11:02 编辑

英伟达过去一年里在AI 领域取得了巨大成功。从 Volta V100 GPU 系列到Ampere A100 和 Hopper H100 GPU,英伟达一直问鼎 AI 芯片之最。

黄仁勋在 GTC 2024 大会上发布一款 GPU 新品,采用 Blackwell 架构的 B200 和 GB200 系列AI芯片。



老黄介绍B200芯片拥有 2080 亿个晶体管(而 H100/H200 上有 800 亿个晶体管),采用台积电 4NP 工艺制程,可以支持多达 10 万亿个参数的 AI 模型,而 OpenAI 的 GPT-3 由 1750 亿个参数组成。它还通过单个 GPU 提供 20 petaflops 的 AI 性能——单个 H100 最多可提供 4 petaflops 的 AI 计算。Blackwell B200 并不是传统意义上的单一 GPU。它由两个紧密耦合的芯片组成,这两个芯片通过 10 TB/s NV-HBI(Nvidia 高带宽接口)连接进行连接,以确保它们能够作为单个完全一致的芯片正常运行。该 GPU 平台以数学家 David Harold Blackwell 的名字命名,继承了英伟达两年前推出的 Hopper 架构,基于该架构一系列产品为英伟达的业务带来更高的成长。

Hopper架构在 AI 安全方面又向前迈进了重要一步。Blackwell 通过 100% 系统内自测试 RAS 服务和全性能加密提供安全的 AI,也就是说数据不仅在传输过程中安全,而且在静止状态和计算时也安全。Blackwell 将被整合到英伟达的 GB200 Grace Blackwell 超级芯片中,该芯片将两个 B200 Blackwell GPU 连接到一个 Grace CPU。
英伟达表示,AWS、戴尔科技、谷歌、Meta、微软、OpenAI 和特斯拉计划使用 Blackwell GPU。“生成式人工智能是我们这个时代的决定性技术,”老黄在演讲时表示。“Blackwell GPU 是推动这场新工业革命的引擎。与世界上最具活力的公司合作,我们将实现人工智能对每个行业的承诺。


英伟达还发布了 GB200 NVL72 液冷机架系统,其中包含 36 颗 GB200 Grace Blackwell 超级芯片,拥有 1440 petaflops(又名 1.4 exaflops)的推理能力,它内部有近两英里长的电缆,共有 5000 根单独的电缆。英伟达表示,与用于推理用途的相同数量的 H100 Tensor Core 图形处理单元相比,GB200 NVL72 性能提升高达 30 倍。此外,该系统还可将成本和能耗降低多达 25 倍。例如,训练一个 1.8 万亿参数模型之前需要 8000 个 Hopper GPU 和 15 兆瓦的功率。如今,只需要 2000 个 Blackwell GPU 就可以做到这一点,而功耗仅为 4 兆瓦。


具有 1750 亿个参数的 GPT-3 基准测试中,英伟达表示 GB200 的性能是 H100 的 7 倍,训练速度是 H100 的 4 倍。英伟达称还将推出一款名为 HGX B200 的服务器主板,它基于在单个服务器节点中使用 8 个 B200 GPU 和一个 x86 CPU(可能是两个 CPU)。每个 B200 GPU 可配置高达 1000W,并且 GPU 提供高达 18 petaflops 的 FP4 吞吐量,因此比 GB200 中的 GPU 慢 10%。目前,企业客户可以通过 HGX B200 和 GB200(将 B200 GPU 与 英伟达的 Grace CPU 结合在一起)访问 B200。组成BlackWell的两个小芯片,它们之间的互联速度就达到了10TB/S,按照老黄的说法,这个速度已经可以满足芯片缓存(Cache)的要求,可以完全把它看作一个单独的大芯片。英伟达引以为傲的NVlink,也算是这次最佳配角,全新的NVLink交换机带宽提升到了7.2TB/S。NVLink交换机的存在,就像人体的骨骼和血管一样,它的存在,把各个GPU计算节点连接在一起,让它们更好的发挥,协同。这次NVLink的提升,72个的GPU可以连接在一起,组成一个DXG超级计算机,并且可以让整个计算机被看做一个超级大的GPU来用。为了达到72个GPU之间的高速互联,DXG内部总共使用了3.2公里长的光纤线缆。这样一台DXG服务器在训练AI时候的算力达到了恐怖的720 PFLOPs,6年前老黄亲手把DXG初代机交给马斯克和OpenAI的时候,那台机器的算力只有0.17 PFLOPs,6年时间,DXG服务器的算力提升了3600倍!在介绍GPU的最后,老黄用大家熟悉的GPT做了一个非常量化的比较,他说目前的OpenAI最先进的模型的参数是1.8万亿个。在使用A100 GPU训练的时候,需要25000个,耗费时间3-6个月,到上一代H100,数量降低到8000块,时间压缩到90天,需要消耗1500万度电,如果用最新的BlackWell GPU,训练时间没变,依然是90天,但是GPU的数量将缩减至1/4,电量只需要400万度。










本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

使用道具 举报

58

主题

8

回帖

4万

积分

门户管理员

积分
48844

英伟达已经推出了数十种企业级生成式 AI 微服务

本帖最后由 无序 于 2024-3-21 11:26 编辑

黄仁勋还着力推销其 AI 软件订阅服务包,这显然是在配合该公司向“以软件卖硬件”的新战略,也是在与过往的“以硬件卖软件”的战略彻底告别。英伟达可以访问所有领域的大量模型,但他们认为对于企业来说它们仍然太难使用。他们推出了 Nvidia 推理微服务(NIM),将模型和依赖项整合到一个简洁的包中,根据用户的堆栈进行优化,并与易于使用的 API 连接。经过打包和优化的预训练模型,可在 NVIDIA 的安装基础上运行,包含运行它所需的所有软件。CUDA 库、API 等,基本上是容器化的 AI 软件包,针对 NV GPU 进行了优化,并带有一个简单的 API 来访问它们。老黄指出:“这就是我们未来编写软件的方式”——通过组装一堆人工智能。

老黄我们介绍了英伟达如何使用 英伟达推理微服务(NIM)创建一个内部聊天机器人,旨在解决构建芯片时遇到的常见问题。“我们需要一个模拟引擎,以数字方式为机器人呈现世界,”他说,这就是 Omniverse。老黄介绍它的“元宇宙”——Omniverse。只不过和以前单纯的把所有的东西都数字化不同,Omniverse现在更多的扮演了AI和现实世界中的中间层。这些“微服务”将允许开发人员使用专有和自定义模型快速创建和部署“副驾驶”或人工智能助手。 他表示,机器人技术与人工智能和 Ominverse/Digital Twin 工作一起成为英伟达的关键支柱,所有这些都共同努力以充分利用公司的系统。 据悉,Omniverse 是一个专为构建和操作 Metaverse 应用程序而设计的平台,本质上是人们可以交互、工作和创建的共享虚拟世界。Omniverse 平台可以创建数字孪生和高级模拟。英伟达对 Omniverse 的愿景包括成为 Metaverse 的基础平台,创作者和企业可以在共享虚拟空间中进行协作。在 Omniverse 中创建的数字孪生可用于 Metaverse 中的各种应用,例如虚拟培训、产品设计和预测性维护。


英伟达已经推出了数十种企业级生成式 AI 微服务,企业可以使用这些服务在自己的平台上制作应用程序,同时保留对其知识产权的完全所有权和控制权。他也表示,英伟达表示正认真考虑从根本上重新设计整个底层软件堆栈,希望借 AI 之力为人类生成更优质的代码。几十年来,整个世界一直受制于围绕 CPU 发展出的传统计算框架,即由人类编写应用程序以检索数据库中准备好的信息。 黄仁勋在发布会上指出,“我们今天的计算方式,首先需要确定信息是由谁编写、由谁创建的,也就是要求信息先要被记录下来。” 而英伟达的 GPU 为加速计算开辟出一条通往算法化计算的新路,可以依托创造性推理(而非固有逻辑)来确定相关结果。 此外,英伟达希望通过发布另一个新的 API 集合 Project GROOT 来推动人形机器人的开发。


Project GROOT是一个人形机器人模型,英伟达与 Jetson Thor 一起生产,Jetson Thor 是一款 SoC,也是 Nvidia Isaac 的升级版。英伟达表示,GROOT 机器人将理解自然语言并模仿人类动作来学习灵活性。Jetson Thor 运行基于 Blackwell 的 GPU,可在 8 位数据处理中提供 800 teraflops 的 AI 性能。老黄透露,由该平台驱动的机器人将被设计为能够理解自然语言并模仿机器人的动作,观察人类行为。这使 GROOT 机器人能够快速学习协调性、灵活性和其他技能,以导航、适应现实世界并与之互动——并且绝对不会导致机器人叛乱。 “为通用人形机器人构建基本模型是我们当今人工智能领域能够解决的最令人兴奋的问题之一,”老黄说。“这些使能技术正在融合在一起,使世界各地领先的机器人专家能够在人工通用机器人领域取得巨大飞跃。”老黄还请出了一排机器人和两个装有英伟达Jetson处理器的小机器人,虽然和小机器人的沟通演示有些失败,但是对于一些像跟随,停止等基本指令,小机器人还是执行到位了。本次GTC大会的最后一个重要部分,黄仁勋花费大量篇幅介绍英伟达在机器人领域的最新进展,包括“机器人大模型”Project GR00T(Generalist Robot 00 Technology)项目,以及另外两个机器人计划:Isaac Manipulator 和 Isaac Perceptor。Project GR00T 是一种多模态人形机器人通用基础模型,作为机器人的大脑,该模型让机器人学习技能从而执行各种指令。该模型支持英伟达的新硬件 Jetson Thor,这是一款专为人形机器人设计的计算机,可以运行仿真工作流、生成式人工智能模型等。而Isaac Manipulator加速库平台和Isaac Perceptor软件库则是机器人开发平台IsaacLab旗下整合的全新项目,前者用于辅助提升机械臂的灵敏度与精确度的加速库平台,后者用于提升服务机器人感知能力。


英伟达在机器人路线的布局其实相当丰富。首先是提供端到端IsaacLAb、Jetson机器人等开发平台,结合生成式AI来支持大规模训练、开发和部署AI机器 人,降低机器人开发门槛与开发成本。其次是在具身智能大模型方面,英伟达陆续发布了Eureka、Voyager、MineDojo、VIMA等项目,这些都是相当成熟的多模态LLM。就在上月,英伟达正式成立了一个全新的研究团队GEAR,全称为“通用具身智能体研究”(Generalist Embodied Agent Research),该部门由英伟达AI高级研究科学家、AI代理计划的负责人jim Fan以及他的老搭档Yuke Zhu教授共同领导。该部门旨在构建适用于虚拟与物理世界的具身智能体的基础模型,致力于实现跨多模态、多场景的智能应用,并计划在未来让每一个能够移动的机器都将实现自主化,让机器人(模拟智能体)像iPhone一样无所不在。算上这次发布的Project GR00T,英伟达算上在“大模型”这一环节完成了补齐。除此以外,在投资方面,英伟达通过投资人形机器人初创公司FigureAI和机器人工厂Machina Labs拓展在机器人领域的布局。同时英伟达还与众多海内外人形机器人公司有着相关合作,可见其未来借助机器人实现增长的决心。英伟达几乎可以涵盖目前市面上所有知名的人形机器人制造商,包括Figure AI、波士顿动力、1X Technologies以及国内的宇树科技和XPENG Robotics(小鹏旗下仿生机器人公司)等等,而它们也在本次GTC大会上集体登场为英伟达站台。


预测五年之后,文本、图像、视频和语音等形式的信息将全部被实时输入大语言模型(LLM)。届时计算机将直通所有信息源,通过多模态交互不断实现自我改进。黄仁勋表示,“未来,我们将步入持续学习的时代。我们可以决定是否部署持续学习的成果,而且与计算机的交互不会再借助 C++。”这就是 AI 技术的意义所在——人类可以在推理之后,要求计算机生成代码以实现特定目标。换句话说,未来人们可以用简单的语言、而非 C++ 或者 Python,与计算机实现顺畅交流。“在我看来,编程本身的价值正在悄然跨过历史性的衰退拐点。”黄仁勋还补充称,AI 已经在弥合人类与技术之间的鸿沟。



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
小鱼儿

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则