借助英特尔® 高级矩阵扩展(英特尔® AMX)加速 AI 工作负载

人工智能 (AI)

英特尔® 高级矩阵扩展(英特尔® AMX)

概述

  • 与第四代产品相比,内置英特尔® AMX 的第五代英特尔® 至强® 可扩展处理器,可将实时推理性能提升高达 1.23 至 1.35 倍,可将实时推理每瓦性能提升高达 1.2 至 1.38 倍;而与第三代产品相比,本代产品则可将推理工作负载的性能提升高达 10 倍,每瓦性能提升高达 7 倍。

author-image

作者

英特尔推出的第四代和第五代英特尔® 至强® 可扩展处理器及其内置的英特尔® 高级矩阵扩展(Intel® Advanced Matrix Extensions,英特尔® AMX)可进一步提高 AI 功能。与第三代英特尔® 至强® 可扩展处理器相比,第五代英特尔® 至强® 可扩展处理器可使推理工作负载的性能提升高达 10 倍,每瓦性能提升高达 7 倍1

优化 AI 管线

从图书和电影推荐系统到驱动大型电商网站的数字化零售软件,再到支持聊天机器人和机器翻译的自然语言处理 (NLP) 功能,企业可通过在不同场景中应用 AI 获得诸多收益。AI 真正的价值在于其能够解析复杂环境和海量数据的特性,以及解决以往难解之题的能力,而这正是不断推进企业革新的关键潜能。据研究显示,到 2025 年,90% 新发布的企业应用版本都将包含嵌入式 AI 功能2

图 1. AI 管线中的 AI 工作负载和处理器活动

第四代和第五代英特尔® 至强® 可扩展处理器内置 AI 加速器——英特尔® AMX,是企业和机构优化 AI 管线的理想选择。平衡推理是 CPU 在 AI 应用中的主要用例,而这款英特尔® AI 引擎专为该用例设计并且具备更多训练能力(见图 1)3。目前,在所有运行 AI 推理工作负载的已装机数据中心处理单元中,英特尔® 至强® 可扩展处理器的占比高达 65%;因此,为新的 AI 部署选择内置英特尔® AMX 的第四代和第五代英特尔® 至强® 可扩展处理器,是一种既高效又具有成本效益的 AI 工作负载加速方式4

选择内置加速器的理由

目前,采用内置英特尔® 深度学习加速技术(Intel® Deep Learning Boost,英特尔® DL Boost)的第三代英特尔® 至强® 可扩展处理器支持 AI 部署,可满足 IT 部门履行客户服务级别协议 (SLA) 的要求,而内置英特尔® AMX 的第四代和第五代英特尔® 至强® 可扩展处理器则将带来新的变革。

如图 2 和图 3 所示:与上一代产品相比,内置英特尔® AMX 的第五代英特尔® 至强® 可扩展处理器,可将实时推理性能提升高达 1.23 至 1.35 倍,可将实时推理每瓦性能提升高达 1.2 至 1.38 倍5,6,7

图 2. 第四代和第五代英特尔® 至强® 可扩展处理器实时推理性能比较5,6,7

图 3. 第四代和第五代英特尔® 至强® 可扩展处理器实时推理每瓦性能比较5,6,7

图 4 展示了第五代英特尔® 至强® 可扩展处理器与第三代英特尔® 至强® 可扩展处理器相比能够带来的总体拥有成本 (TCO) 优势8。针对批量 NLP 推理 (BERT-Large) 工作负载,只需 13 台基于第五代英特尔® 至强® 可扩展处理器的服务器即可实现 50 台基于第三代英特尔®至强® 可扩展处理器的服务器所能提供的性能8。服务器数量的减少意味着更低的能耗和更低 CO2 排放量,从而实现多达 64% 的 TCO 节约8

图 4. 第五代英特尔® 至强® 可扩展处理器与第三代产品相比的 TCO 优势

通过图 5 可以看出,英特尔® AMX 带来的性能提升远大于每一代产品(从第一代英特尔® 至强® 可扩展处理器开始)通过增加内核所实现的性能提升9

图 5. 以第一代英特尔® 至强® 可扩展处理器为基准,与前几代产品相比,英特尔® AMX 实现非线性性能提升

英特尔® AMX 是什么?

英特尔® AMX 是内置于第四代和第五代英特尔® 至强® 可扩展处理器中的加速器,可优化深度学习 (DL) 训练和推理工作负载。借助英特尔® AMX,第四代和第五代英特尔® 至强® 可扩展处理器可在优化通用计算和 AI 工作负载间快速转换。就好比一辆汽车,既有非常出色的城市道路行驶表现,也可以迅速转换模式,展现 F1 赛事级别的竞速性能。第四代和第五代英特尔® 至强® 可扩展处理器就具备这种灵活性。开发人员可以编写非 AI 功能代码来利用处理器的指令集架构 (ISA),也可编写 AI 功能代码,以充分发挥英特尔® AMX指令集的优势。英特尔已将其 oneAPI DL 引擎——英特尔® oneAPI 深度神经网络库(Intel® oneAPI Deep Neural Network Library,英特尔® oneDNN)集成至包括 TensorFlow、PyTorch、PaddlePaddle 和 ONNX 在内的多个主流 AI 应用开源工具当中。

英特尔® AMX 架构

英特尔® AMX 架构由两部分组件构成(见图 6):

  • 第一部分为 TILE,由 8 个 1 KB 大小的 2D 寄存器组成,可存储大数据块。
  • 第二部分为平铺矩阵乘法 (TMUL),它是与 TILE 连接的加速引擎,可执行用于 AI 的矩阵乘法计算。

图 6. 英特尔® AMX 架构由 2D 寄存器文件 (TILE) 和 TMUL 组成

英特尔® AMX 支持 INT8 和 BF16 两种数据类型:

  • 当推理无需 FP32(AI 经常使用的单精度浮点格式)的精度时可使用 INT8 这种数据类型。由于该数据类型的精度较低,因此单位计算周期内运算次数就更多,非常适合对于速度和效率要求较高的实时应用和矩阵乘法任务。
  • BF16 这种数据类型实现的准确度足以达到大多数训练的要求,必要时它也能让 AI 推理实现更高的准确度。它能够以近乎 FP32 的精度支持机器学习模型训练,但产生的计算成本远低于 FP32。

凭借这种新的平铺架构以及对 INT8 和 BF16 两种数据格式的支持,英特尔® AMX 让英特尔® 至强® 可扩展处理器实现了大幅代际性能提升。与内置英特尔® 高级矢量扩展 512 矢量神经网络指令(Intel® Advanced Vector Extensions 512 Vector Neural Network Instructions,英特尔® AVX-512 VNNI)的第三代英特尔® 至强® 可扩展处理器相比,内置英特尔® AMX 的第四代英特尔® 至强® 可扩展处理器将单位计算周期内执行 INT8 运算的次数从 256 次提高至 2048 次。此外,如图 7 所示,第四代英特尔® 至强® 可扩展处理器可在单位计算周期内执行 1024 次 BF16 运算,而第三代英特尔® 至强® 可扩展处理器执行 FP32 运算的次数仅为 64 次10

图 7. 与英特尔® AVX-512 VNNI 相比,英特尔® AMX 在处理 INT8 和 BF16 两种数据类型时表现更出色

AI 用例

内置英特尔® AMX 的第四代和第五代英特尔® 至强® 可扩展处理器可用于广泛的深度学习 (DL) 用例。

  • 推荐系统

无论是推荐电影和图书,还是进行广告精准投放,均可带来个性化的终端用户体验。基于深度学习创建可将用户实时行为以及时间和地点等相关场景特征考虑在内的推荐系统。

  • 自然语言处理 (NLP)

聊天机器人、情感分析等自然语言处理应用是企业支持和扩展情绪分析、聊天机器人和机器翻译等多种功能的关键所在,预计到 2032 年,自然语言处理应用的全球市场规模将达到 1,580.4 亿美元11

  • 零售电商软件解决方案

在 PyTorch、TensorFlow 等已面向 AI 优化的框架基础上,通过深度学习推理和训练,大幅缩短交易时间,轻松应对峰值需求,助力零售企业增加收入并提供出色的客户体验。

使用英特尔® AMX 立启新加速

借助英特尔® AMX,几乎无需费力,即可提升性能。这得益于多个默认使用的框架都经过英特尔® oneDNN 的优化。Windows 和 Linux 操作系统、基于内核的虚拟机 (KVM) 和多个主流虚拟机管理程序都支持英特尔® AMX 指令集。INT8 和 BF16 运算在 TensorFlow 和 PyTorch 等开源框架内可自动优化。开发人员可借助英特尔® 分发版 OpenVINO™ 工具包实现 AI 推理的自动化、优化、微调和运行,且几乎或者完全不需要具备编码知识。而且,开发人员只需使用英特尔® Neural Compressor 便可将训练模型量化为 INT8 数据类型。

英特尔® AMX 实施和开发工具

英特尔提供了大量工具和资源来帮助开发人员实施和部署英特尔® AMX。

使用英特尔® 至强® 可扩展处理器为 AI 加速

使用内置英特尔® AMX 的第四代和第五代英特尔® 至强® 可扩展处理器,充分挖掘 AI 无限潜能,更好助力千行百业。在数据中心已广泛部署英特尔® 至强® 可扩展处理器的基础之上更进一步,借助全新矩阵乘法运算加速方案,体验更加出色的 AI 训练和推理性能。

有关英特尔® AI 和英特尔® AMX 的更多信息,请访问 www.intel.cn/ai