芯片解密|单片机解密|IC解密|软件开发|PCB抄板|样机制作|原理图绘制

芯片解密

芯片解密AMD发布MI325X,性能超英伟达H200

美国时间10月10日,芯片解密AMD在旧金山召开了Advancing AI发布会。这一次,他们带来了三款核心硬件产品:新版Instinct MI325X 、第五代EPYC 服务器和最新的第三代 DPU Pensando系列。

这些新技术将于明年推出,AMD 承诺将在生成式 AI 性能方面树立新标准。这些技术是 AMD 持续进军数据中心芯片领域的一部分。AMD 在该领域已经抢占了长期竞争对手英特尔公司的市场份额,占据了 34% 的数据中心芯片收入。AMD 专注于让这些芯片更好地适应 AI。

“我们的目标是让 AMD 成为端到端 AI 的领导者,”首席执行官苏姿丰 (Lisa Su)在今天上午的活动主题演讲中表示。她列举了微软公司、Meta Platforms Inc.、Databricks Inc. 和甲骨文公司等 AI 领导者的高管,以及 Reka AI Inc.、Essential AI Labs Inc.、Fireworks AI 和 Luma AI Inc. 等初创公司的高管,他们对与 AMD 的合作大加赞赏。

AMD已迅速崛起,对英伟达公司在人工智能基础设施行业的主导地位构成了越来越大的威胁,其热销的 MI300X 人工智能芯片的成功正在进一步巩固其市场地位。该芯片于今年早些时候推出,预计将为该公司带来超过 40 亿美元的人工智能芯片销售额。

01

AMD 迄今为止最强大的 AI 芯片

AMD Instinct MI325X 基于该公司的 CDNA 3 架构,芯片解密旨在实现超快的性能和更高的能效,以执行最苛刻的 AI 任务,包括训练大型语言模型、微调其性能和 AI 推理,然后由模型将结果提供给用户。


MI325X加速器采用了 AMD CDNA 3 GPU 架构,配备 256GB 下一代 HBM3E 高带宽内存。内置 1530 亿个晶体管。它提供了 6TB/s 的内存带宽,在 FP8 和 FP16 精度下分别达到 2.6 PF 和 1.3 PF 的峰值理论性能。

与英伟达上一代的旗舰GPU 加速器H200相比,MI325X的内存容量更大(256Gvs141G),内存带宽也更高(6TB/s vs 4.8TB/s)。在算力方面,虽然英伟达官方宣称H200的FP16 算力可达1.9 PF,但经semianalysis实测,其实际算力约为1 PF,与H100持平,比MI325X低了30%。


因此AMD MI325X在推理方面的表现平均超越H200 30%,与其算力比提升相符。保持了上一代的领先优势。


由MI325X核心集成的GPU平台包含 8 个 MI325X。该平台总共提供 2TB HBM3E 高带宽内存,FP8 精度下的理论峰值性能达到 20.8 PF,FP16 精度下达到 10.4 PF。系统配备 AMD Infinity Fabric 互连技术,带宽高达 896 GB/s,总内存带宽达到了 48 TB/s。


相比于H200的集成平台H200 HGX,芯片解密MI325X平台提供1.8倍的内存量,1.3倍的内存带宽和1.3倍的算力水平。


AI开发平台的适配性一直在磨合期,这导致其训练效果有待提升。但这一年来AMD一方面加强升级ROCm,一方面与AI开发平台深度合作,总算是让它有了一倍左右的提升。


这一提升的结果是,针对Meta Llama-2这种主流模型,MI325X的单GPU训练效率终于超越了H200。而在集群中,其训练效率仍和H200 HGX相当。

5X预计将于 2024 年第四季度开始出货,与H200的大规模交付相差仅一个季度。鉴于目前英伟达遇到了B200和B100的封装瓶颈,规模发货被延迟,交付给OpenAI的也仅仅是工程样机。如果MI325X的发货规模能快速爬升,那理论上的代差就会被实际的出货情况抹平,MI325X在市场上的实际对手就是H200,而它还比H200性能稍高。

02

构建人工智能的网络基础

AMD 打算将最新的 Instinct 加速器与新的网络技术相结合,包括 AMD Pensando Salina DPU 和 AMD Pensando Pollara 400,后者声称这是业界首款支持超级以太网的 AI 网络接口卡。新技术对于连接 AMD 的新 AI 加速器并确保足够的吞吐量以共享数据至关重要。



AMD Pensando Salina DPU 代表 AMD 网络的前端,负责将数据传送至 Instinct 加速器集群,而 AMD Pensando Pollara 400 则代表后端,负责管理各个加速器和集群之间的数据传输。这两款产品将于明年初上市。

Pensando Salini DPU 是其 DPU 系列的第三代产品,性能是其前代产品的两倍,可用带宽和规模增加了一倍以上。总而言之,它支持 400G 吞吐量,确保数据中心有史以来最快的数据传输速率。因此,它将成为 AI 前端网络集群的关键组件,帮助优化 AI 应用程序的性能、效率和可扩展性。

在发布会上,AMD 网络技术与解决方案事业部高级副总裁兼总经理、AMD于 2022 年收购的 Pensando Systems Inc. 联合创始人 Soni Jiandani强调了网络的重要性。她解释说,AI 系统需要为用户连接网络的前端,而在后端则必须连接到数千个 GPU 以确保性能。

“后端网络推动着 AI 系统的性能,”她说。“Meta 表示,其训练周期的 30% 时间通常都在等待联网时流逝。因此,联网不仅至关重要,而且是推动 AI 性能的基础。”

IDC 分析师 Brandon Hoff 对此表示同意。他解释说:“AI 工作负载,尤其是生成性 AI 工作负载,是第一个能够消耗服务器节点中的所有计算、内存、存储和网络的工作负载。AI 还可以扩展到单个 AI 工厂节点之外,这需要所有 GPU 相互通信。”

因此,他补充道,“AI Factory 节点之间的通信时间称为‘网络时间’,最多可占训练或多节点推理 AI 运行处理时间的 60%。换句话说,如果超大规模企业在 GPU 上花费 10 亿美元,他们完成了 4 亿美元的工作,而 6 亿美元的 GPU 处于闲置状态。高性能网络至关重要,也是第二重要的部分。”

因此,对于 AMD 来说,他说:“拥有一套强大的网络产品是打造其 AI 业务的重要组成部分。这些是适合 DPU 和 SmartNIC 的产品,而以太网是值得投资的正确技术。”

Bajarin 表示,AMD 在网络技术方面取得了长足进步。“我认为,AMD 能够通过收购 ZT 系统将这一技术融入到其针对机架进行优化的全栈方法中,那么他们的网络技术就会变得更加重要,”他说。

03

未来 GPU 正在研发中

Salina DPU 和 Pollara 400 也将于明年初推出,芯片解密但在公司等待这些技术面世的同时,他们至少可以展望未来的发展。

除了即将推出的新芯片和网络技术之外,AMD 还预览了其下一代芯片 AMD Instinct MI350 系列加速器,预计将于明年下半年推出。



据 AMD 介绍,Instinct MI350 将基于该公司的 CDNA 4 架构打造,与 Instinct MI325X 相比,在推理性能方面实现了令人难以置信的 35 倍提升,同时提供 288GB 的HBM3E 内存。

该公司还提到了新的 MI355X 加速器芯片计划,芯片解密预计将于 2025 年底开始批量出货,随后是基于全新架构的 MI400 芯片,将于 2026 年某个时候推出。

本公司声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本公司赞同其观点,本公司亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本公司删除。



联系方式

地址:石家庄新华区民族路77号华强广场D座2009
电话:0311-88816616/87087811
手机:13315190088
传真:0311-67901001
联系人:张工
网址:www.feixindz.com
邮箱:feixindz@163.com
微信:xinpianjiemi
QQ:527263666/568069805

在线客服
热线电话

企业微信