面向高性能计算和人工智能融合集群的英特尔® 精选解决方案

英特尔® 精选解决方案提供在现有高性能计算 (HPC) 集群上运行人工智能 (AI) 工作负载所需的计算密集型资源。

  • 面向高性能计算和人工智能融合集群的英特尔® 精选解决方案集丰富且出色的软硬件及技术于一身,在同一高性能计算基础设施上支持多种工作负载,在降低系统复杂性的同时也减少了总体拥有成本,而其经过优化的批量调度能力,更是使企业和机构能够在保障高性能的同时,实现灵活性、可扩展性和均衡性。

author-image

作者

企业希望借助仿真和建模、人工智能 (AI) 以及大数据分析实现突破性的发现和创新。虽然他们知道高性能计算 (HPC) 基础设施对这些工作负载大有裨益,但或许仍相信在彼此独立的高性能计算、人工智能和大数据集群中运行这些工作负载才是明智的选择。

促成这一观点的原因源于两大挑战。第一个挑战是工作负载请求资源与高性能计算系统分配资源的方式存在根本性区别。人工智能和数据分析工作负载动态地请求计算资源, 而高性能计算集群使用批量调度软件分配系统资源,两种方式互不兼容。

第二个挑战是将基于图形处理单元 (GPU) 的计算系统用作人工智能工作负载专用解决方案的惯用模式。企业可能尚未意识到,即使不使用 GPU,也能将这些工作负载添加到现有高性能计算集群中。

企业完全可以做到既提供人工智能工作负载所需的计算基础设施,实现出色的性能和成本效益,同时又不会因为管理分散的专用系统而增加复杂性。他们所需要的是在同一高性能计算基础设施中运行高性能计算、大数据分析和人工智能工作负载的能力。另外,他们还需要优化资源调度,帮助节省时间、降低计算成本。

在一个集群基础设施中创建能够运行高性能计算、人工智能和数据分析工作负载的融合平台有助于实现突破性创新。通过融合这些工作负载,不仅创新有路可循,还能增加资源的价值和利用率。面向高性能计算和人工智能融合集群的英特尔® 精选解决方案可助您达成宏愿。英特尔® 精选解决方案是经过验证的硬件和软件堆栈,针对特定工作负载进行了计算、存储和网络资源优化。英特尔® 精选解决方案基于英特尔® 至强® 可扩展处理器构建而成,有助于满足企业对性能、敏捷性和安全性的需求。

面向高性能计算和人工智能融合集群的英特尔® 精选解决方案

在面向高性能计算和人工智能融合集群的英特尔® 精选解决方案中,核心功能由在高性能计算环境中运行人工智能工作负载的解决方案提供。这种架构使高性能计算批量调度程序可以在通用的高性能计算基础设施上运行包括仿真和建模、大数据分析以及人工智能在内的各种工作负载。合作伙伴也能够藉此协助客户直接在现有的高性能计算投资基础上开始运行人工智能和大数据工作负载。

什么是英特尔® 精选解决方案?

英特尔® 精选解决方案是预定义并已针对工作负载优化的解决方案,旨在大幅减少评估和部署基础设施过程中遇到的挑战。解决方案经由 OEM/ODM 认可、ISV 认证,并由英特尔进行验证。这些解决方案是在英特尔与硬件、软件和操作系统供应商合作伙伴及全球各大数据中心和服务提供商广泛协作下开发的。每个英特尔® 精选解决方案都是英特尔® 数据中心级计算、内存、存储和网络技术按需组合的结果,能够带来可预测、可信赖、令人叹服的性能表现。
要符合英特尔® 精选解决方案的条件,解决方案提供商必须:
1.    遵循解决方案参考设计规范所规定的软件与硬件堆栈要求
2.    达到或超越既定参考基准测试阈值
3.    发布解决方案内容,以方便客户部署

解决方案提供商也可以开发自己的优化方案,以便能够给最终客户带来更简单、更一致的部署体验。

英特尔® 至强® 可扩展处理器

第二代英特尔® 至强® 可扩展处理器:
•    具有高度可扩展性,从多云环境到智能边缘,兼顾成本效率和灵活性
•    建立无缝的性能基础,帮助加快数据带来的变革性影响
•    支持突破性的英特尔® 傲腾™ 持久内存技术
•    提升人工智能 (AI) 性能,帮助整个数据中心实现人工智能就绪
•    提供硬件增强型平台保护和威胁监控

面向高性能计算和人工智能融合集群的英特尔® 精选解决方案采用的是英特尔® 至强® 金牌处理器。

这些解决方案结合了英特尔® 至强® 可扩展处理器、高性能并行文件存储系统和 Omni-Path 架构 (OPA),以在同一基础设施上为多种类型的工作负载提供支持。这种多工作负载支持能力意味着:
• 客户可以直接在现有的高性能计算基础设施上开始人工智能之旅,同时降低高性能计算的总体拥有成本 (TCO),因为基于英特尔® 至强® 可扩展处理器的高性能计算环境不需要专用硬件,即可运行人工智能工作负载
• 通过增强人工智能推理,加速获取洞察
• 消除在多种环境之间传输数据的负担,由此加快数据分析和人工智能训练
• 通过在同一基础设施中支持混合工作流程,使解决方案能够充分利用资源,提高在单一环境中运行高性能计算、人工智能和数据分析工作负载的效率

英特尔® 精选解决方案支持多项先进功能,可在同一高性能计算集群上运行机器学习、深度学习训练模型和数据分析。例如,这些解决方案可以帮助用户在高性能计算系统中运行面向英特尔® 架构优化的 TensorFlow 模型。TensorFlow 是一个基于 Python 的深度学习框架,能够在现代深度神经网络 (DNN) 上轻松使用和扩展,并已针对英特尔® 至强® 处理器进行优化。此外,解决方案包含的 Apache Spark 支持还有助于机器学习和数据分析。

这些解决方案还提供结合紧密的高性能计算和人工智能软件堆栈,并集成多种开源工具,用于批量调度。这种方法有望降低系统复杂性,减少许可成本,并可在同一高性能计算基础设施中支持混合工作负载。

英特尔® 精选解决方案已通过验证,将英特尔® 至强® 可扩展处理器和其他英特尔® 技术结合到基于英特尔® 高性能计算平台规范的成熟架构中。该规范定义了构建基于英特尔® 技术的集群所应遵循的通用行业实践和要求。作为架构基础,该规范提供一致且稳定的平台,支持开发和部署各类计算密集型和数据密集型工作负载。这一基础中还包括英特尔® 软件性能库和运行时环境,帮助应用充分利用经过优化的底层英特尔® 处理器和技术。英特尔® 高性能计算平台规范的实施,使企业和机构能够在保障高性能的同时,实现灵活性、可扩展性、均衡性和可移植性。

在构建高性能计算集群的过程中,面向高性能计算和人工智能融合集群的英特尔® 精选解决方案能够化繁为简,并为要求苛刻的混合工作负载提供出色性能。此外,解决方案已通过验证,可确保:
• 包括关键组件和技术,以提供所需的性能和可扩展性
• 如英特尔® 高性能计算平台规范中所定义的,符合基于英特尔® 技术的集群的行业标准和典范做法
• 在高性能计算应用相关的目标特性中,达到或超过定义的性能水平

硬件和软件选择

面向高性能计算和人工智能融合集群的英特尔® 精选解决方案包含几个关键的硬件和软件组件。解决方案基于面向仿真和建模的英特尔® 精选解决方案,涵盖的硬件可为融合高性能计算、人工智能和大数据分析的工作负载提供所需的性能。

计算

这些解决方案使用英特尔® 至强® 金牌 6248R 处理器。英特尔® 至强® 可扩展处理器具备有益于高性能计算应用的增强功能,包括更出色的输入/输出 (I/O)、内存、网络集成以及英特尔® 高级矢量扩展 512 技术(英特尔® AVX-512)1
• 对于采用人工智能的高性能计算用户,英特尔® 深度学习加速技术(英特尔® DL Boost)因能加速人工智能工作负载,提高 Int16 和 Int8 峰值运算速度,使得相关配置更具吸引力。英特尔® 深度学习加速技术旨在提升人工智能深度学习(推理)工作负载(例如,语音识别、图像识别、物体分类、机器翻译等)的性能。
• 现有的英特尔® AVX-512 融合乘加 (FMA) 指令已经能够大大提高浮点运算速度。而借助英特尔® 深度学习加速技术,性能加速可延伸至整数运算,应对卷积神经网络 (CNN) 和深度神经网络 (DNN) 工作负载的密集计算要求。

面向高性能计算和人工智能融合集群的英特尔® 精选解决方案使用以下附加硬件:
• 固态盘:英特尔® 固态盘 DC S4610 系列
• 存储:高性能计算并行文件系统 
• 消息网络:英特尔® Omni-Path Host Fabric Interface 适配器 100 系列
• 管理网络交换机:万兆位以太网 (GbE) 交换机

网络

OPA 会为高性能计算集群提供 100 Gbps 的带宽和低时延网络,还能降低布线成本、功耗、空间要求,减少日常所需的系统维护。

软件

解决方案中的软件包括 Slurm 批量调度程序和面向 Apache Spark 和 Alluxio 的 Magpie 编排层。Magpie 也可以与其他调度程序(例如 Torque 和 LFS)搭配使用,提供广泛的框架。作为开源软件,Magpie 对生产软件堆栈的影响低于同类闭源软件,并且还支持多个资源管理器。
解决方案中的其他软件包括:
• Linux 操作系统
• 英特尔® Cluster Runtimes
• 英特尔® Cluster Checker
• 英特尔® 高性能计算平台 RPM 包
• OpenHPC
• 英特尔® Omni-Path 高带宽网络软件
• 英特尔® Omni-Path Host Fabric Interface 驱动程序
• 英特尔® OpenVINO™ 工具包
• Apache Spark
• TensorFlow
• Horovod

新版还加入了 Alluxio,用于提高文件系统 I/O 性能。高性能计算并行文件系统无法高效地处理小文件,这可能会成为处理元数据较多的大数据分析工作负载时的瓶颈。Alluxio 能够高效缓冲这类元数据,并能针对在高性能计算基础设施上运行的大数据分析和人工智能工作负载,优化并行文件系统的 I/O 性能。

经过基准测试验证的性能

所有英特尔® 精选解决方案均经过验证,已达到指定的工作负载优化性能要求下限。面向高性能计算和人工智能融合集群的英特尔® 精选解决方案采用与面向仿真和建模的英特尔® 精选解决方案相同的性能标准,经优化的功能更能满足高性能计算应用的要求。在八个知名的行业基准测试中,这些经过验证的解决方案均符合或超过了设计和测试标准。这些基准测试涵盖系统的重要方面,并指明了大数据和人工智能工作负载的横向与纵向扩展性能。

面向高性能计算和人工智能融合集群的英特尔® 精选解决方案还使用以下基准测试来验证性能:TensorFlow ResNet-50 基准测试和 Spark-Bench 测试套件。

配置详情

面向高性能计算和人工智能融合集群的英特尔® 精选解决方案的配置情况见表 1。

表 1. 面向高性能计算和人工智能融合集群的英特尔® 精选解决方案配置

组件          面向高性能计算和人工智能融合集群的英特尔® 精选解决方案配置详情
应用节点
CPU      2 个英特尔® 至强® 金牌 6248R 处理器(或更高型号)
内存 每个节点 384 GB DRAM
四个计算节点
CPU 2 个英特尔® 至强® 金牌 6248R 处理器(或更高型号)
内存 384 GB DRAM
存储(引导) 240 GB 英特尔® 固态盘 DC S4610
存储(容量) 高性能计算并行文件系统(每个客户端每秒 470 兆位 [Mbps])
网络架构 Omni-Path Host Fabric Interface 适配器 100 系列
批量调度程序 Slurm 上的开源 Magpie
软件 CentOS Linux installation ISO(精简版或完整版)7 build 2003
英特尔® Cluster Runtimes 2020.2
英特尔® Cluster Checker 2019.9(或更高版本)
面向 EL7 的英特尔® 高性能计算平台 RPM 包
软件版本 2018.0
OpenHPC1.3.9 或更高版本
Omni-Path 高带宽网络软件(包括 Omni-Path HFI 驱动程序),软件版本 10.10.3.1.1 或更高版本
英特尔® OpenVINO™ 工具包,软件版本 2020.4
英特尔® Parallel Studio XE 集群版 2020
Apache Spark 2.4.6 版
面向英特尔® 架构优化的 TensorFlow v2.3.0
Horovod v0.19.0
Alluxio v2.3.0

 

面向高性能计算和人工智能融合集群的英特尔® 精选解决方案的技术选择

除了用于这些解决方案的英特尔® 硬件基础,英特尔® 至强® 可扩展处理器中还集成了以下英特尔® 技术,可进一步提高性能与可靠性:
英特尔® AVX-512:提高性能,满足苛刻的计算工作负载需求。与上一代英特尔® 处理器相比,每时钟周期的每秒浮点运算速度 (FLOPS) 提高了一倍1

英特尔® 深度学习加速技术:将性能加速延伸至整数运算,应对 CNN 和 DNN 工作负载的密集计算要求。它可以加快人工智能工作负载的速度,提高 Int16 和 Int8 峰值运算速度。英特尔® 深度学习加速技术旨在提升人工智能深度学习(推理)工作负载(例如,语音识别、图像识别、物体分类、机器翻译等)的性能。

英特尔® Cluster Checker:可检查 100 多项与集群运行状况有关的特性。英特尔® Cluster Checker 在节点和集群两个层面上检查系统,确保所有组件协同工作以实现出色性能。它可评估固件、内核、存储和网络设置。它还支持通过英特尔® MPI 库基准测试、STREAM、高性能 LINPACK (HPL) 基准测试、高性能共轭梯度 (HPCG) 基准测试等对节点和网络性能进行高级别测试。英特尔® Cluster Checker 可进行扩展以纳入自定义测试,其功能可嵌入到其它软件中。

英特尔® Cluster Runtimes:为每个集群提供所需的关键软件运行时元素,确保为应用提供优化性能路径。包括英特尔® 数学核心函数库(英特尔® MKL)和英特尔® MPI 库在内的英特尔® 运行时性能库可为基于英特尔® 架构的集群提供优化后的出色性能。

集群管理软件堆栈:提供部署和管理 Linux 高性能计算集群所需的软件堆栈。该软件堆栈中包含配置工具、资源管理、I/O 客户端、开发工具及科学库。诸如 Bright Cluster Manager、Warewulf 和 xCAT 等资源管理工具为软件堆栈提供支持。

面向英特尔® 至强® 可扩展处理器的融合并行编程:为创建包含强大技术、软件工具和库的高度集成产品组合提供支持。英特尔® 至强® 可扩展处理器在通用编程模型的基础上,提供强大、灵活的框架,为跨人工智能框架的代码现代化举措提供支持。

面向高性能计算的英特尔® 精选解决方案套件再添新成员

面向高性能计算和人工智能融合集群的英特尔® 精选解决方案为强大的面向高性能计算的英特尔® 精选解决方案套件再添力量,旨在应对极其关键的高性能计算工作负载。作为英特尔® 高性能计算产品组合的基础,面向仿真和建模的英特尔® 精选解决方案是英特尔一款面向通用高性能计算应用的灵活解决方案。为了更好地进行数据可视化,面向专业可视化的英特尔® 精选解决方案基于面向仿真和建模的英特尔® 精选解决方案的功能,经过专门优化,能有效支持仿真和可视化应用。面向人工智能推理的英特尔® 精选解决方案和面向基因组分析的英特尔® 精选解决方案更是使得高性能计算产品组合如虎添翼。

简化高性能计算集群上的人工智能工作负载部署

面向高性能计算和人工智能融合集群的英特尔® 精选解决方案将英特尔® 至强® 可扩展处理器、OPA 及其他英特尔® 技术与精选的批量调度程序结合在一起,以经过验证、全面统一的解决方案,为在高性能计算集群上运行大数据和人工智能工作负载带来出色的性能。客户可在熟悉的现有基础设施上,立即开启人工智能之旅。
有关英特尔® 精选解决方案的更多信息,请访问 intel.cn/selectsolutions

了解更多

英特尔® 精选解决方案:intel.cn/selectsolutions
英特尔® 至强® 可扩展处理器:intel.cn/xeonscalable
英特尔® 固态盘数据中心家族:intel.cn/content/www/cn/zh/products/memory-storage/solid-state-drives/data-center-ssds.html
OPA:intel.cn/omnipath
英特尔® 高性能计算平台规范:intel.cn/content/www/cn/zh/high-performance-computing/hpc-platform-specification.html
英特尔® 高性能计算应用目录:intel.cn/content/www/cn/zh/high-performance-computing/hpc-application-catalog.html
Magpie:https://github.com/LLNL/magpie
如何购买:intel.cn/content/www/cn/zh/products/docs/select-solutions/where-to-buy.html