IBM即将推出了IBM Telum下一代 处理器芯片解密
英伟达:芯片解密公布Blackwell架构细节,2024年至2028年的产品路线图
IBM:下一代 AI 加速器Telum II
英特尔:下一代英特尔至强 6 SoC、Lunar Lake客户端处理器
AMD:Zen 5 核心架构解析
高通:Oryon核心解析
特斯拉:TTPoE,即特斯拉以太网传输协议
中国香山高性能RISC-V处理器亮相
01
英伟达:公布Blackwell架构细节
英伟达公布了下一代GPU架构Blackwell的更多细节信息,以及未来的产品路线图。
英伟达Blackwell是通用计算全栈矩阵的终极解决方案,由多个英伟达芯片组成,包括Blackwell GPU、Grace CPU、BlueField数据处理单元、ConnectX网络接口卡、NVLink交换机、Spectrum以太网交换机和Quantum InfiniBand交换机。
它涵盖了从CPU和GPU计算,到用于互连的不同类型的网络。这是芯片到机架和互连,而不仅仅是GPU。它是有史以来单个GPU所拥有的最强AI计算、内存带宽和互连带宽。通过使用高带宽接口(NV-HBI),可在两个GPU芯片之间提供10TB/s的带宽。
此外,芯片解密英伟达还引入了新的FP4和FP6精度。降低计算精度是提高性能的一种众所周知的方法。通过英伟达的Quasar量化系统,可以找出哪些方面可以使用较低的精度,从而减少计算和存储。英伟达表示,用于推理的FP4在某些情况下可以接近BF16性能。
NVLink交换机芯片和NVLink交换机托盘(tray)旨在以更低的功耗推送大量数据。英伟达演示了GB200 NVL72和NVL36。其中,NVL72包含36个Grace GPU和72个Blackwell GPU,专为万亿参数AI而设计。GB200 NVL 72作为一个统一系统,对大语言模型(LLM)推理性能提升高达30倍,释放了实时运行数万亿个参数模型的能力。
英伟达表示,随着AI模型尺寸的增加,在多个GPU上拆分工作负载势在必行。而Blackwell足够强大,可以在一个GPU中处理专家模型。
英伟达还展示了2024年至2028年的产品路线图。2026年的1.6T ConnectX-9似乎表明了英伟达对PCIe Gen7的需求,因为PCIe Gen6 x16无法处理1.6T的网络连接。
02
IBM:下一代 AI 加速器,Telum II
2021 年,IBM推出了IBM Telum 处理器,这是 IBM 首款用于推理的先进处理器芯片 AI 加速器。Telum 处理器实现业务成果的能力一直是 IBM z16大型机计划成功的关键驱动因素。随着客户需求的发展,IBM 不断创新并突破新兴技术的极限。
在今年的Hot Chips 2024大会上,芯片解密IBM 宣布推出面向 AI 时代的下一代企业计算,即 IBM Telum II 处理器和 IBM Spyre Accelerator 预览版。预计两者将于 2025 年上市。
采用三星 5nm 技术开发的全新 IBM Telum II 处理器将配备八个高性能核心,运行频率为 5.5GHz。Telum II 的片上缓存容量将增加 40%,虚拟 L3 和虚拟 L4 分别增加到 360MB 和 2.88GB。该处理器集成了专门用于 IO 加速的全新数据处理单元 (DPU) 和下一代片上 AI 加速。这些硬件增强旨在为客户提供比前几代产品显著的性能改进。
每个加速器的计算能力预计将提高 4 倍,达到每秒 24 万亿次运算 (TOPS)。但仅凭 TOPS 并不能说明全部情况。这完全取决于加速器的架构设计以及位于加速器之上的 AI 生态系统的优化。当谈到生产企业工作负载中的 AI 加速时,适合用途的架构至关重要。Telum II 旨在使模型运行时能够与最苛刻的企业工作负载并驾齐驱,同时提供高吞吐量、低延迟推理。此外,还增加了对 INT8 作为数据类型的支持,以增强首选 INT8 的应用程序的计算能力和效率,从而支持使用较新的模型。
还加入了新的计算原语,芯片解密以更好地支持加速器内的大型语言模型。它们旨在支持越来越广泛的 AI 模型,以便对结构化数据和文本数据进行全面分析。
高通希望将 Oryon 的用途拓展到笔记本电脑以外的领域。
06
特斯拉:TTPoE,即特斯拉以太网传输协议
去年在 Hot Chips 2023 上,特斯拉推出了他们的 Dojo 超级计算机。对于特斯拉来说,机器学习专注于自动驾驶汽车等汽车应用,训练涉及视频,这可能需要大量的 IO 带宽。例如,对于公司的视觉应用,单个张量的大小可能为 1.7 GB。特斯拉发现,即使主机只是通过 PCIe 复制数据,他们的 Dojo 超级计算机的吞吐量也可能受到主机将数据推送到超级计算机的速度的限制。
特斯拉通过增加更多主机和将这些额外主机连接到超级计算机的廉价方式解决了这个问题。特斯拉没有使用像 Infiniband 这样的典型超级计算机网络解决方案,而是选择通过修改传输层来适应以太网的需求。TCP 被特斯拉以太网传输协议 (TTPoE) 取代。TTPoE 旨在提供微秒级延迟并允许简单的硬件卸载。较低级别的层保持不变,让协议在标准以太网交换机上运行。
TTPoE 的设计完全由硬件处理,芯片解密并提供比标准 TCP 协议更好的延迟。因此,与 TCP 相比,TTPoE 的状态机大大简化。
通过消除 TCP 中的等待状态,可以减少延迟。在 TCP 中关闭连接涉及发送 FIN、等待该 FIN 的确认,并确认该确认。此后,连接进入 TIME WAIT 状态,这需要实现等待一段时间,允许任何无序数据包安全耗尽,然后新连接才能重用该端口。TTP 删除 TIME_WAIT 状态,并将关闭顺序从三次传输更改为两次。可以通过发送关闭操作码并接收确认来关闭 TTP 连接。Tesla 的目标是微秒级的延迟,因此即使是毫秒级的 TIME_WAIT 持续时间也可能导致严重问题。
本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。