光迹的抽象图像

借助英特尔® 高级矩阵扩展(英特尔® AMX)加速人工智能 (AI) 工作负载

  • 第四代英特尔® 至强® 可扩展处理器,内置由 2D 寄存器文件和平铺矩阵乘法构成的英特尔® AMX,支持 INT8和 BF16 两种数据类型。与前几代产品相比,本代产品可实现高达 5.7 至 10 倍的实时推理性能提升和高达 3.5 至 10 倍的训练性能提升。此外,借助英特尔® oneDNN 和英特尔® 分发版 OpenVINO™ 工具包,还可在优化通用计算和 AI 工作负载间快速转换。

author-image

作者

英特尔推出的第四代英特尔® 至强® 可扩展处理器及其内置的英特尔® 高级矩阵扩展(Intel® Advanced Matrix Extensions,英特尔® AMX)可进一步提高 AI 功能,实现较上一代产品 3 10 倍的推理和训练性能提升1

优化 AI 流水线

从图书和电影推荐系统到驱动大型电商网站的数字化零售软件,再到支持聊天机器人和机器翻译的自然语言处理 (NLP) 功能,企业可通过在不同场景中应用人工智能 (AI) 获得诸多收益。AI 真正的价值在于其解析复杂环境和海量数据的特性,以及解决以往难解之题的能力,而这正是不断推进企业革新的关键潜能。据研究显示,到 2025 年,90% 新发布的企业应用版本都将包含嵌入式 AI 功能2

图 1. AI 流水线中的 AI 工作负载和处理器活动

第四代英特尔® 至强® 可扩展处理器内置 AI 加速器——英特尔® AMX,是企业和机构优化 AI 流水线的理想选择。平衡推理是 CPU 在 AI 应用中的主要用例,英特尔® AMX专为该用例设计并且具备更多训练能力(见图 1)3。目前,在所有运行 AI 推理工作负载的已装机数据中心处理单元中,英特尔® 至强® 可扩展处理器的占比高达 70%;因此,为新的 AI 部署选择内置英特尔® AMX 的第四代英特尔® 至强® 可扩展处理器,是一种既高效又具有成本效益的 AI 工作负载加速方式4

选择内置加速器的理由

目前,采用内置英特尔® 深度学习加速技术(Intel® Deep Learning Boost,英特尔® DL Boost)的第三代英特尔® 至强® 可扩展处理器支持 AI 部署,可满足 IT 部门履行客户服务级别协议 (SLA) 的要求,而内置英特尔® AMX 的第四代英特尔® 至强® 可扩展处理器则将带来新的变革。

图 2 所示为英特尔® AMX 在代际间实现高达 5.7 至 10 倍的 PyTorch 实时推理性能提升的情况;图 3 所示为英特尔® AMX 在代际间实现高达 3.5 至 10 倍的 PyTorch 训练性能提升的情况5。凭借更强性能,英特尔® AMX 将进一步提升客户满意度。英特尔® AMX 加速器内置于企业和机构业已熟悉的 CPU 解决方案之中,可显著提升多方面性能,让您在选择适合 AI 应用的 CPU 时更轻松。

图 2. 第四代英特尔® 至强® 可扩展处理器内置英特尔® AMX,加速 PyTorch 实时推理5

图 3. 第四代英特尔® 至强® 可扩展处理器内置英特尔® AMX,加速 PyTorch 训练5

通过图 4 可以看出英特尔® AMX 带来的性能提升远大于每一代产品(从第一代英特尔® 至强® 可扩展处理器开始)通过增加内核所实现的性能提升6

图 4. 以第一代英特尔® 至强® 可扩展处理器为基准,与前几代产品相比,英特尔® AMX 实现非线性性能提升6

英特尔® AMX 是什么?

英特尔® AMX 是内置于第四代英特尔® 至强® 可扩展处理器中的加速器,可优化深度学习 (DL) 训练和推理工作负载。借助英特尔® AMX,第四代英特尔® 至强® 可扩展处理器可在优化通用计算和 AI 工作负载间快速转换。设想一辆汽车,既有非常出色的城市道路行驶表现,也可以迅速转换模式,展现 F1 赛事级别的竞速性能。第四代英特尔® 至强® 可扩展处理器就具备这种灵活性。开发人员可以编写非 AI 功能代码来利用处理器的指令集架构 (ISA),也可编写 AI 功能代码,以充分发挥英特尔® AMX 指令集的优势。英特尔已将其 oneAPI DL 引擎——英特尔® oneAPI 深度神经网络库(Intel® oneAPI Deep Neural Network Library,英特尔® oneDNN)集成至包括 TensorFlow、PyTorch、PaddlePaddle 和 ONNX 在内的多个主流 AI 应用开源工具当中。

英特尔® AMX 架构

英特尔® AMX 架构由两部分组件构成(见图 5):

 

  • 第一部分为 TILE,由 8 个 1 KB 大小的 2D 寄存器组成,可存储大数据块。
  • 第二部分为平铺矩阵乘法 (TMUL),它是与 TILE 连接的加速引擎,可执行用于 AI 的矩阵乘法计算。

图 5. 英特尔® AMX 架构由 2D 寄存器文件 (TILE) 和 TMUL 组成

英特尔® AMX 支持两种数据类型:INT8 和 BF16,两者均可用于 AI 工作负载所需的矩阵乘法运算。

 

  • 当推理无需 FP32(AI 经常使用的单精度浮点格式)的精度时可使用 INT8 这种数据类型。由于该数据类型的精度较低,因此单位计算周期内运算次数就更多。
  • BF16 这种数据类型实现的准确度足以达到大多数训练的要求,必要时它也能让 AI 推理实现更高的准确度。

 

凭借这种新的平铺架构,英特尔® AMX 实现了大幅代际性能提升。与运行英特尔® 高级矢量扩展 512 神经网络指令(Intel® Advanced Vector Extensions 512 Neural Network Instructions,英特尔® AVX-512 VNNI)的第三代英特尔® 至强® 可扩展处理器相比,运行英特尔® AMX 的第四代英特尔® 至强® 可扩展处理器将单位计算周期内执行 INT8 运算的次数从 256 次提高至 2048 次。此外,如图 6 所示,第四代英特尔® 至强® 可扩展处理器可在单位计算周期内执行 1024 次 BF16 运算,而第三代英特尔® 至强® 可扩展处理器执行 FP32 运算的次数仅为 64 次7

图 6. 与英特尔® AVX-512 VNNI 相比,英特尔® AMX 在处理 INT8 和 BF16 两种数据类型时表现更出色7

AI 用例

内置英特尔® AMX 的第四代英特尔® 至强® 可扩展处理器可用于广泛的深度学习 (DL) 用例。

推荐系统

无论是推荐电影和图书,还是进行广告精准投放,均可带来个性化的终端用户体验。基于深度学习 (DL) 创建可将用户实时行为,以及近乎实时的时间和地点等相关场景特征考虑在内的推荐系统。

自然语言处理 (NLP)

语言推理、机器学习 (ML) 等自然语言处理 (NLP) 应用是企业支持和扩展情绪分析、聊天机器人和机器翻译等多种功能的关键所在,预计到 2029 年,自然语言处理应用的全球市场规模将达到 1,618.1 亿美元8

零售电商软件解决方案

在 PyTorch、TensorFlow 等已面向 AI 优化的框架基础上,通过使用深度学习 (DL) 推理和训练,大幅缩短交易时间,满足峰值需求,助力零售企业增加收入并提供出色的客户体验。

使用英特尔® AMX 立启新加速

借助英特尔® AMX,几乎无需费力,即可提升性能。这得益于多个默认使用的框架都经过英特尔® oneDNN 的优化。Windows 和 Linux 操作系统、基于内核的虚拟机 (KVM) 和多个主流虚拟机管理程序都支持英特尔® AMX 指令集。INT8 和 BF16 运算在 TensorFlow 和 PyTorch 等开源框架内可自动优化。开发人员可借助英特尔® 分发版 OpenVINO™ 工具包 (Intel® Distribution of OpenVINO™ toolkit) 实现 AI 推理的自动化、优化、微调和运行,且几乎或者完全不需要具备编码知识。而且,开发人员只需使用英特尔® Neural Compressor 便可将训练模型量化为 INT8 数据类型。

使用第四代英特尔® 至强® 可扩展处理器为 AI 加速

使用内置英特尔® AMX 的第四代英特尔® 至强® 可扩展处理器,充分挖掘 AI 无限潜能,更好助力千行百业。在数据中心已广泛部署英特尔® 至强® 可扩展处理器的基础之上更进一步,借助全新矩阵乘法运算加速方案,体验更加出色的 AI 训练和推理性能。

有关英特尔® 人工智能和英特尔® AMX 的更多信息,请访问 intel.cn/content/www/cn/zh/artificial-intelligence/overview.html