英特尔
® 
数学核心函数库 10.1 —— 性能提升
打印发送电子邮件告知好友支持新闻简报RSSDigg thisdel.icio.us
产品信息评估中心支持资源文档
演示案例研究系统要求白皮书性能图表性能提升


购买产品 ›

免费评估版软件 ›

非商业用途 Linux* 版免费下载 ›

本页按发行版本列出了英特尔® 数学核心函数库(英特尔® MKL)的性能提升情况。

您可以在每个数学域的产品信息页中查看相应的性能表 (BLAS/LAPACKScaLAPACKLINPACKFFT向量数学向量统计)。

10.1 版中的性能提升

BLAS

  • 32 位提升
    • (Z、C)GEMM 在使用四核英特尔® 至强® 5300 系列处理器时性能提升 50%
    • 所有(D、S、Z、C)GEMM 代码在运行于四核英特尔® 至强® 5400 系列处理器时性能提升 10%
  • 64 位提升
    • SGEMM 在运行于英特尔® 酷睿™ i7 处理器时性能提升 50%
    • DTRSM 在运行于英特尔® 酷睿™ i7 处理器时右侧项性能提升 30%

直接稀疏矩阵解算器(DSS/PARDISO):

  • 核外 PARDISO 性能平均提升 35%。

VML 和 VSL

  • 针对英特尔® 酷睿™ i7 处理器的优化:
    • 下列 VML 函数性能提升达 17%: Asin、Asinh、Acos、Acosh、Atan、Atan2、Atanh、Cbrt、CIS、Cos、Cosh、Conj、Div、ErfInv、Exp、Hypot、Inv、InvCbrt、InvSqrt、Ln、Log10、MulByConj、Sin、SinCos、Sinh、Sqrt、Tanh。
    • 统一随机数生成性能提升 67%。
    • 基于 Wichmann-Hill、Sobol 和 Niederreiter BRNGs(64 位)的 VSL 分布生成器性能提升 10%。


10.0 版本的性能提升

BLAS

  • DGEMM 线程得到改善,实现了小型和中型的尺寸 —— 产品轮廓尺寸缩减 10%,平方尺寸缩减 80%
  • DTRSM、DTRMM 和 DSYRK 性能提升了 5-30%


LAPACK

  • 因对 LAPACK 3.1 的改善而带来的非对称特征值问题方面的明显改善
  • *HETRD 在缓存优化后性能提升 75%
  • *SYTRD 在缓存优化后性能提升 40%
  • 针对基于双核英特尔® 至强® 5100 系列处理器的服务器在 *HERDB/*SYRDB 中实施了一系列的减少带宽的措施,使其与传统 *HETRD/*SYTRD 相比速度提高了 2.8 倍
  • CROT/ZROT 性能提升 80%
  • 对角矩阵线性方程解算器(DGTSV/SGTSV)的性能提升 8-10%
  • 对角矩阵对称正定线性方程解算器(*PTSV)的性能提升 8-28%
  • 处理一般的非对称特征值问题(*GGEV)的性能提升 3-8%,处理 CGGEV 的性能提升 30%
  • 线程化上三角形实矩阵*8 Cholesky 分解
  • (D/S/Z/C)STEDC 的性能提升了 30%,运行 4 个线程时,通过使用 OpenMP 进行并行处理其性能提升达 100%



9.1 版本的性能提升


BLAS

  • DGEMM 线程得到改善,实现了小型和中型的尺寸 —— 产品轮廓尺寸缩减 10%,平方尺寸缩减 80%
  • DTRSM、DTRMM 和 DSYRK 性能提升了 5-30%


LAPACK

  • 因对 LAPACK 3.1 的改善而带来的非对称特征值问题方面的明显改善
  • *HETRD 的缓存能力提高了 75%
  • *SYTRD 的缓存能力提高了 40%
  • 针对基于双核英特尔® 至强® 5100 系列处理器的服务器在 *HERDB/*SYRDB 中实施了一系列的减少带宽的措施,使其与传统 *HETRD/*SYTRD 相比速度提高了 2.8 倍
  • CROT/ZROT 性能提升 80%
  • 对角矩阵线性方程解算器(DGTSV/SGTSV)的性能提升 8-10%
  • 对角矩阵对称正定线性方程解算器(*PTSV)的性能提升 8-28%
  • 处理一般的非对称特征值问题(*GGEV)的性能提升 3-8%,处理 CGGEV 的性能提升 30%
  • 线程化上三角形实矩阵*8 Cholesky 分解
  • (D/S/Z/C)STEDC 的性能提升了 30%,运行 4 个线程时,通过使用 OpenMP 进行并行处理其性能提升达 100%



稀疏 BLAS

  • 在串行模式下,对角格式的三角形矩阵解算器例程的性能提升 20-50%,会对以下几个函数产生影响: mkl_ddiasm、mkl_ddiasv 和 mkl_ddiatrsv
  • 已对级别 3 三角形矩阵解算器 mkl_ddiasm 进行线程处理


直接稀疏矩阵解算器(DSS/PARDISO)

  • DSS/PARDISO —— 对于具有一个和多个右侧项的对称正定矩阵而言,性能相对上一版本提升了 20-30%


FFT

  • 在安腾处理器中,运行 4 个线程时,大于 2^22 的单精度 1 维复数正向 FFT 速度最多提高 2 倍;运行 8 个线程时,速度最多提高 2.4 倍
  • 在运行 4 个线程时,大小为 2 的幂的双精度 1 维复数错位 FFT 的速度最多提高 2 倍
  • 在采用英特尔® 64 且在 64 位模式下运行的系统中,双精度 2 维复数二维 FFT 的速度最多提高 1.7 倍,而单精度 2 维复数 FFT 的速度最多提高 1.3 倍



9.0 版本的性能提升

英特尔® 安腾® 2 处理器

FFT


  • 单双精度,1 维实数 FFT 在 n = 2、4、8、16、32、64 和 128 时速度最多提高了 3 倍


VML

  • Ln、Log10、Asin、Acos、Sinh、Cosh 函数的性能提升了 25-83%
  • 长向量(双精度 n>250,000 或单精度 n>500,000)的性能平均值提高了 60% 以上。这使每个元素的性能限定在小向量性能的 20% 以内


VSL

  • 高斯和多元高斯分布生成器的性能分别提升了 35% 和 15%



英特尔® 酷睿™2 双核处理器

BLAS


  • ZDOTU、ZDOTC —— 缓存数据的性能提升了 10-35%


VSL


  • 性能提升了约 13%


VML


  • VML 中 Div 和 Inv 函数的性能提升了 2.7 倍
  • Asin 和 Acos 函数的性能提升了 5 - 20%



英特尔® 奔腾® 4 与英特尔® 至强® 处理器

BLAS


  • CGEMV —— 对齐的数据的性能提升了 30-80%
  • ZGEMV —— 英特尔® 64 架构系统上未对齐数据的性能提升了 5-35%
  • DTRMV —— 小尺寸的性能提升了 20%
  • SNRM2、SCNRM2 —— 缓存数据的性能提升达 10 倍
  • ZDOTU、ZDOTC —— 高速缓存上的对齐数据的性能提升了 10-25%,未对齐数据的速度提高了 2 倍


其它提升

稀疏 BLAS


  • 压缩稀疏矩阵行格式的稀疏矩阵矢量乘法例程的性能提升了 20-50%。以下函数受到影响: mkl_dcsrgemv、mkl_dcsrsymv 和 mkl_dcsrmv
  • Asin 和 Acos 函数的性能提升了 5 - 20%


FFT


  • 2 的幂的大小大于 17 的单双精度 1 维复数 FFT 的性能最多提高了 40%
  • 在 64 位模式下运行的英特尔® 64 架构系统上,单双精度、1 维实数的 FFT 在 n = 2、4、8、16、32 或 64 时提升达 3 倍


VML


  • 通过 OpenMP* 的自动线程处理,函数可利用多路系统(向量长度为 n > 200),以及支持英特尔® 超线程 (HT) 技术的系统(向量长度为 n > 10000)。在双核处理器和双路系统上,系统性能提升达 90%



8.1 版中的性能提升

英特尔® 安腾® 2 处理器

BLAS


  • 3 级 BLAS
    • DTRMM —— 小尺寸的性能提升了 100-150%(高达 200%)
  • 1 级 BLAS
    • DSWAP、SSWAP、ZSWAP、CSWAP - 高达 1.5-2 倍
    • DASUM —— 内存中提升了 30-40%(适用于尺寸大于 500,000 的情况)
    • DAMAX、IDAMIN、ISAMAX、ISAMIN - 缓存上提升了 30-40%
    • ZAXPY、CAXPY —— 在二级高速缓存和内存上提升达 1.5 倍
    • SAXPY —— 高达 1.5 倍


英特尔® 至强® 处理器

英特尔® 奔腾® 4 处理器

BLAS


  • 3 级 BLAS
    • 英特尔® 64 架构处理器的 DGEMM 提高了 1-3%
    • 英特尔® 64 架构的 SGEMM 提高了 1.5 - 2 倍
    • 英特尔® 64 架构的 ZTRSM(L 端)在小尺寸时提高了 50%,在大尺寸时提高了 5%
    • ZGEMM 提高了 10-40%
  • 2 级 BLAS
    • DSWAP、SSWAP、ZSWAP、CSWAP - 高达 1.5-2 倍
    • DASUM —— 内存中提升了 30-40%(适用于尺寸大于 500,000 的情况)
    • DAMAX、IDAMIN、ISAMAX、ISAMIN —— 缓存上提升了 30-40%
    • ZAXPY、CAXPY —— 在二级高速缓存和内存上提升达 1.5 倍
    • SAXPY —— 高达 1.5 倍
  • 1 级 BLAS
    • DDOT —— 缓存上提升了 35%
    • DGEMV —— 缓存上提升了 40%
    • ZDOTU、ZDOTC —— 30-90%
    • ZAXPY —— 20-50%
    • ZSCAL —— 20-40%
    • VML(适用于英特尔® 64 架构处理器)
    • Inv、Div、Ln、Log10、Tan、Asin、Atan、Atan2、Acosh、Asinh 和 Atanh 函数的某些变量的性能提升了 25% 至 250%


英特尔® 酷睿™ 双核处理器


BLAS


  • VML 性能提升约 35%
  • VSL 性能提升约 35%



8.0 版本的性能提升

英特尔® 安腾® 2 处理器

2 级 BLAS 函数的性能提升:


  • Sger - 20-70%
  • Cgeru、cgerc - 50%
  • Dsyr - 10-70%
  • Ssyr - 10-50%


英特尔® 至强® 处理器

英特尔® 奔腾® 4 处理器

BLAS


  • 大小不能被 4 整除的情况下,英特尔® 64 架构的 DGEMM 得到改善
  • 小尺寸时大约提高了 30-40%,大小增加到 1000-2000 时提高了 4%
  • 2 级 BLAS 函数的性能提高:
    • CGERU、CGERC —— 二级缓存上提升达 2 倍,内存上提高了 12%
    • CHER —— 在二级缓存上大写情况下提升达 2 倍,小写情况下提高了 40%;在内存上提高了 5-8%
    • CHER2 —— 在二级缓存上了提高了 8-25%,在内存上提高了 4%
    • CHER —— 在二级缓存上小写情况下提升达 2.5 倍,大写情况下提高了 10%;在内存上提高了 3-15%
    • CHER2 —— 在二级缓存上小写情况下提升达 2 倍,大写情况下提高了 7%;在内存上提高了 5-70%
    • CHBMV —— 在二级缓存上提升达 2 倍,在内存上提高了 20-30%
    • CHPMV —— 在二级缓存上小写情况下提升达 2 倍,大写情况下提高了 75%;在内存上提高了 50-80%


DFT


  • 在二级缓存上,二维复数的性能提升了 25-100%,单精度实数的性能提升达 30%,双精度实数的性能提升了 16%
  • 在二级缓存上,三维复数的性能提升了 5-50%


LAPACK 优化


  • BDSQR 的性能提升了 10% 至 500%,这取决于已更新单数向量的数量。(更新的向量数越少表示优化程度越高。)
  • DSTEQR 的性能提升了 30-500%



1 性能测试和等级评定均使用特定的计算机系统和/或组件进行测量,反映了使用这些测试所测的英特尔产品的大致性能。系统设计或配置的任何不同均能影响实际性能。购买者应进行多方咨询,以评估他们考虑购买的系统或组件的性能。获取有关英特尔产品的性能测试和性能的更多信息。


返回页首



英特尔® 软件   
网络
英特尔® 软件网络
  • 成员注册步骤简单且免费,马上 加入吧!