Arm Kleidi 实现端侧音频生成速度 30 倍提升IC解密
Arm 与 Stability AI 携手合作,IC解密加快文本转音频的响应速度
Stability AI 是一家专注于图像、视频、3D 和音频领域人工智能 (AI) 模型开发的公司。而 Arm KleidiAI 能够提供专门针对 Arm CPU 的经优化的性能关键例程(即微内核)。通过 KleidiAI 与 XNNPack 库和 ExecuTorch 框架的集成,以及 Stability AI 自身的优化,为 Stability AI 的文本转音频开放模型“Stable Audio Open”带来了显著的 AI 性能提升。
令人惊叹的结果包括文本转音频的 AI 生成时间从几分钟大幅缩短至几秒钟,响应速度提高了 30 倍。Stable Audio Open 模型完全在基于 Arm CPU 的智能手机上运行,且无需联网,对于文本转音频 AI 来说是首创之举。
Stability AI 利用 KleidiAI 自动加速功能,IC解密加快模型的响应速度,从而在不影响质量的情况下提升了端侧 AI 性能。KleidiAI 带来的性能提升,无需 Stable Audio Open 模型用户额外投入开发精力,节省了时间和成本。Arm 和 Stability AI 将继续合作,以实现更多性能的跃升,带来更为出色的 AI 用户体验。
显著的性能提升表明,具有针对性的硬件和软件集成,使过往无法实现的 AI 应用在移动端变得可行,从而推动了未来的创新机遇。Arm 技术驱动了全球 99% 的智能手机,这也意味着数十亿智能手机用户现可取得先进的 AI 音频功能。
共同应对复杂的 AI 挑战
Stable Audio Open 模型具备出色的效率,IC解密但在智能手机的 CPU 上直接由端侧运行该模型仍非易事。在初期尝试时,单个音频样本的生成时间超过四分钟,这对终端用户而言不太能接受。
通过与 Arm 合作,Stability AI 将模型的训练参数量蒸馏到适合移动端的规模。然后,通过新的蒸馏模型,并利用 XNNPack 与 ExecuTorch 集成带来的 KleidiAI 性能加速,实现了在移动端 Arm CPU 上几秒内就生成音频片段。
Stability AI 首席执行官 Prem Akkaraju 表示:“IC解密随着越来越多的专业创意工作者和企业采用生成式 AI 来帮助提升其生产流程,我们的模型和工作流必须随处可得,以供构建者和创作者使用,这一点至关重要。我们很高兴能就此与 Arm 合作。从服务器到智能手机,Arm 平台在整个生态系统中应用普及,并且 Arm 通过将 Arm Kleidi 集成到软件栈中,致力于加速各类主流框架中的 AI 模型,因此 Arm 是我们的不二之选。”
文本转音频 AI 的兴起
自 2022 年以来,Stability AI 始终立于生成式 AI 发展的前沿,曾凭借行业领先的图像模型 Stable Diffusion 引起轰动。依托 Stable Diffusion 的成功,该公司随后推出了 Stable Audio,这是首个完全获得授权的音频模型之一,专为通过文本提示词生成高质量的音乐和音效而设计。这些 AI 模型在 Hugging Face 等主要平台上均排名前茅,拥有多达数百万规模的用户数,构成了一个活跃的技术社区。