详解 Arm Cortex-A320芯片破解
芯片破解Cortex-A320:最小型的 Armv9 架构实现
Arm 今日发布的 Cortex-A320 是首款基于Armv9 架构的超高能效 Cortex-A 处理器。这是一款基于 Armv9.2-A 架构的AArch64 CPU。其微架构源自 Cortex-A520,并经过显著优化,以改善面积和功耗。
Cortex-A320 的能效相较 Cortex-A520提高了 50% 以上。这一提升是通过多次微架构的更新而实现,其中包括窄取和解码数据路径、密集存储的 L1 缓存、缩减端口的整数寄存器文件等优化。
得益于高能效的分支预测器和预取器,以及内存系统的提升等微架构上的显著创新,Cortex-A320 在 SPECINT2K6 基准测试中的标量性能相比其前代产品 Cortex-A35 提升了 30% 以上。
更重要的是,通过集成增强的Armv9 的 Neon 和SVE2 向量处理技术,在 INT8 通用矩阵乘法 (GEMM)中测得 Cortex-A320 的 ML 处理能力比 Cortex-A35 高出至多 10 倍。此外,通过对 BF16 等新的数据类型、新的点积和矩阵乘法指令的支持,Cortex-A320的 ML 性能比目前全球最受欢迎的 Armv8-A CPU Cortex-A53 高出至多六倍。
芯片破解Cortex-A320 在 ML 能力的大幅提升,以及极高的面积能效比,使其在 ML 应用中成为最高能效的 Cortex-A CPU核心。
与 Arm Cortex-M 处理器相比,Cortex-A320 的 ML 性能同样提高了数倍。例如,在 GEMM 性能方面,Cortex-A320 相较目前性能最高的 Cortex-M CPU (Cortex-M85) 提高了八倍。这种性能提升不仅归功于 Armv9 架构在 AI 处理上的增强,还源于 Cortex-A320 内存访问性能的大幅提高和频率的增加。
与此同时,得益于 Arm 的 A 处理器架构、多核执行,以及灵活的内存管理,这使Cotex-A320成为Cortex-M系列微处理器进行性能升级的合适选项。