本页按发行版本列出了英特尔® 数学核心函数库(英特尔® MKL)的性能提升情况。
您可以在每个数学域的产品信息页中查看相应的性能表 (
BLAS/LAPACK、
ScaLAPACK、
LINPACK、
FFT、
向量数学和
向量统计)。
10.1 版中的性能提升BLAS- 32 位提升
- (Z、C)GEMM 在使用四核英特尔® 至强® 5300 系列处理器时性能提升 50%
- 所有(D、S、Z、C)GEMM 代码在运行于四核英特尔® 至强® 5400 系列处理器时性能提升 10%
- 64 位提升
- SGEMM 在运行于英特尔® 酷睿™ i7 处理器时性能提升 50%
- DTRSM 在运行于英特尔® 酷睿™ i7 处理器时右侧项性能提升 30%
直接稀疏矩阵解算器(DSS/PARDISO):VML 和 VSL- 针对英特尔® 酷睿™ i7 处理器的优化:
- 下列 VML 函数性能提升达 17%: Asin、Asinh、Acos、Acosh、Atan、Atan2、Atanh、Cbrt、CIS、Cos、Cosh、Conj、Div、ErfInv、Exp、Hypot、Inv、InvCbrt、InvSqrt、Ln、Log10、MulByConj、Sin、SinCos、Sinh、Sqrt、Tanh。
- 统一随机数生成性能提升 67%。
- 基于 Wichmann-Hill、Sobol 和 Niederreiter BRNGs(64 位)的 VSL 分布生成器性能提升 10%。
10.0 版本的性能提升 BLAS- DGEMM 线程得到改善,实现了小型和中型的尺寸 —— 产品轮廓尺寸缩减 10%,平方尺寸缩减 80%
- DTRSM、DTRMM 和 DSYRK 性能提升了 5-30%
LAPACK- 因对 LAPACK 3.1 的改善而带来的非对称特征值问题方面的明显改善
- *HETRD 在缓存优化后性能提升 75%
- *SYTRD 在缓存优化后性能提升 40%
- 针对基于双核英特尔® 至强® 5100 系列处理器的服务器在 *HERDB/*SYRDB 中实施了一系列的减少带宽的措施,使其与传统 *HETRD/*SYTRD 相比速度提高了 2.8 倍
- CROT/ZROT 性能提升 80%
- 对角矩阵线性方程解算器(DGTSV/SGTSV)的性能提升 8-10%
- 对角矩阵对称正定线性方程解算器(*PTSV)的性能提升 8-28%
- 处理一般的非对称特征值问题(*GGEV)的性能提升 3-8%,处理 CGGEV 的性能提升 30%
- 线程化上三角形实矩阵*8 Cholesky 分解
- (D/S/Z/C)STEDC 的性能提升了 30%,运行 4 个线程时,通过使用 OpenMP 进行并行处理其性能提升达 100%
9.1 版本的性能提升 BLAS- DGEMM 线程得到改善,实现了小型和中型的尺寸 —— 产品轮廓尺寸缩减 10%,平方尺寸缩减 80%
- DTRSM、DTRMM 和 DSYRK 性能提升了 5-30%
LAPACK- 因对 LAPACK 3.1 的改善而带来的非对称特征值问题方面的明显改善
- *HETRD 的缓存能力提高了 75%
- *SYTRD 的缓存能力提高了 40%
- 针对基于双核英特尔® 至强® 5100 系列处理器的服务器在 *HERDB/*SYRDB 中实施了一系列的减少带宽的措施,使其与传统 *HETRD/*SYTRD 相比速度提高了 2.8 倍
- CROT/ZROT 性能提升 80%
- 对角矩阵线性方程解算器(DGTSV/SGTSV)的性能提升 8-10%
- 对角矩阵对称正定线性方程解算器(*PTSV)的性能提升 8-28%
- 处理一般的非对称特征值问题(*GGEV)的性能提升 3-8%,处理 CGGEV 的性能提升 30%
- 线程化上三角形实矩阵*8 Cholesky 分解
- (D/S/Z/C)STEDC 的性能提升了 30%,运行 4 个线程时,通过使用 OpenMP 进行并行处理其性能提升达 100%
稀疏 BLAS- 在串行模式下,对角格式的三角形矩阵解算器例程的性能提升 20-50%,会对以下几个函数产生影响: mkl_ddiasm、mkl_ddiasv 和 mkl_ddiatrsv
- 已对级别 3 三角形矩阵解算器 mkl_ddiasm 进行线程处理
直接稀疏矩阵解算器(DSS/PARDISO)- DSS/PARDISO —— 对于具有一个和多个右侧项的对称正定矩阵而言,性能相对上一版本提升了 20-30%
FFT- 在安腾处理器中,运行 4 个线程时,大于 2^22 的单精度 1 维复数正向 FFT 速度最多提高 2 倍;运行 8 个线程时,速度最多提高 2.4 倍
- 在运行 4 个线程时,大小为 2 的幂的双精度 1 维复数错位 FFT 的速度最多提高 2 倍
- 在采用英特尔® 64 且在 64 位模式下运行的系统中,双精度 2 维复数二维 FFT 的速度最多提高 1.7 倍,而单精度 2 维复数 FFT 的速度最多提高 1.3 倍
9.0 版本的性能提升 英特尔® 安腾® 2 处理器FFT- 单双精度,1 维实数 FFT 在 n = 2、4、8、16、32、64 和 128 时速度最多提高了 3 倍
VML- Ln、Log10、Asin、Acos、Sinh、Cosh 函数的性能提升了 25-83%
- 长向量(双精度 n>250,000 或单精度 n>500,000)的性能平均值提高了 60% 以上。这使每个元素的性能限定在小向量性能的 20% 以内
VSL- 高斯和多元高斯分布生成器的性能分别提升了 35% 和 15%
英特尔® 酷睿™2 双核处理器BLAS- ZDOTU、ZDOTC —— 缓存数据的性能提升了 10-35%
VSLVML- VML 中 Div 和 Inv 函数的性能提升了 2.7 倍
- Asin 和 Acos 函数的性能提升了 5 - 20%
英特尔® 奔腾® 4 与英特尔® 至强® 处理器BLAS- CGEMV —— 对齐的数据的性能提升了 30-80%
- ZGEMV —— 英特尔® 64 架构系统上未对齐数据的性能提升了 5-35%
- DTRMV —— 小尺寸的性能提升了 20%
- SNRM2、SCNRM2 —— 缓存数据的性能提升达 10 倍
- ZDOTU、ZDOTC —— 高速缓存上的对齐数据的性能提升了 10-25%,未对齐数据的速度提高了 2 倍
其它提升稀疏 BLAS- 压缩稀疏矩阵行格式的稀疏矩阵矢量乘法例程的性能提升了 20-50%。以下函数受到影响: mkl_dcsrgemv、mkl_dcsrsymv 和 mkl_dcsrmv
- Asin 和 Acos 函数的性能提升了 5 - 20%
FFT- 2 的幂的大小大于 17 的单双精度 1 维复数 FFT 的性能最多提高了 40%
- 在 64 位模式下运行的英特尔® 64 架构系统上,单双精度、1 维实数的 FFT 在 n = 2、4、8、16、32 或 64 时提升达 3 倍
VML- 通过 OpenMP* 的自动线程处理,函数可利用多路系统(向量长度为 n > 200),以及支持英特尔® 超线程 (HT) 技术的系统(向量长度为 n > 10000)。在双核处理器和双路系统上,系统性能提升达 90%
8.1 版中的性能提升英特尔® 安腾® 2 处理器BLAS- 3 级 BLAS
- DTRMM —— 小尺寸的性能提升了 100-150%(高达 200%)
- 1 级 BLAS
- DSWAP、SSWAP、ZSWAP、CSWAP - 高达 1.5-2 倍
- DASUM —— 内存中提升了 30-40%(适用于尺寸大于 500,000 的情况)
- DAMAX、IDAMIN、ISAMAX、ISAMIN - 缓存上提升了 30-40%
- ZAXPY、CAXPY —— 在二级高速缓存和内存上提升达 1.5 倍
- SAXPY —— 高达 1.5 倍
英特尔® 至强® 处理器英特尔® 奔腾® 4 处理器BLAS- 3 级 BLAS
- 英特尔® 64 架构处理器的 DGEMM 提高了 1-3%
- 英特尔® 64 架构的 SGEMM 提高了 1.5 - 2 倍
- 英特尔® 64 架构的 ZTRSM(L 端)在小尺寸时提高了 50%,在大尺寸时提高了 5%
- ZGEMM 提高了 10-40%
- 2 级 BLAS
- DSWAP、SSWAP、ZSWAP、CSWAP - 高达 1.5-2 倍
- DASUM —— 内存中提升了 30-40%(适用于尺寸大于 500,000 的情况)
- DAMAX、IDAMIN、ISAMAX、ISAMIN —— 缓存上提升了 30-40%
- ZAXPY、CAXPY —— 在二级高速缓存和内存上提升达 1.5 倍
- SAXPY —— 高达 1.5 倍
- 1 级 BLAS
- DDOT —— 缓存上提升了 35%
- DGEMV —— 缓存上提升了 40%
- ZDOTU、ZDOTC —— 30-90%
- ZAXPY —— 20-50%
- ZSCAL —— 20-40%
- VML(适用于英特尔® 64 架构处理器)
- Inv、Div、Ln、Log10、Tan、Asin、Atan、Atan2、Acosh、Asinh 和 Atanh 函数的某些变量的性能提升了 25% 至 250%
英特尔® 酷睿™ 双核处理器BLAS- VML 性能提升约 35%
- VSL 性能提升约 35%
8.0 版本的性能提升 英特尔® 安腾® 2 处理器2 级 BLAS 函数的性能提升:- Sger - 20-70%
- Cgeru、cgerc - 50%
- Dsyr - 10-70%
- Ssyr - 10-50%
英特尔® 至强® 处理器英特尔® 奔腾® 4 处理器BLAS- 大小不能被 4 整除的情况下,英特尔® 64 架构的 DGEMM 得到改善
- 小尺寸时大约提高了 30-40%,大小增加到 1000-2000 时提高了 4%
- 2 级 BLAS 函数的性能提高:
- CGERU、CGERC —— 二级缓存上提升达 2 倍,内存上提高了 12%
- CHER —— 在二级缓存上大写情况下提升达 2 倍,小写情况下提高了 40%;在内存上提高了 5-8%
- CHER2 —— 在二级缓存上了提高了 8-25%,在内存上提高了 4%
- CHER —— 在二级缓存上小写情况下提升达 2.5 倍,大写情况下提高了 10%;在内存上提高了 3-15%
- CHER2 —— 在二级缓存上小写情况下提升达 2 倍,大写情况下提高了 7%;在内存上提高了 5-70%
- CHBMV —— 在二级缓存上提升达 2 倍,在内存上提高了 20-30%
- CHPMV —— 在二级缓存上小写情况下提升达 2 倍,大写情况下提高了 75%;在内存上提高了 50-80%
DFT- 在二级缓存上,二维复数的性能提升了 25-100%,单精度实数的性能提升达 30%,双精度实数的性能提升了 16%
- 在二级缓存上,三维复数的性能提升了 5-50%
LAPACK 优化- BDSQR 的性能提升了 10% 至 500%,这取决于已更新单数向量的数量。(更新的向量数越少表示优化程度越高。)
- DSTEQR 的性能提升了 30-500%
1 性能测试和等级评定均使用特定的计算机系统和/或组件进行测量,反映了使用这些测试所测的英特尔产品的大致性能。系统设计或配置的任何不同均能影响实际性能。购买者应进行多方咨询,以评估他们考虑购买的系统或组件的性能。获取有关英特尔产品的性能测试和性能的更多信息。
返回页首