英特尔
® 
数学内核库的新增内容
打印发送电子邮件告知好友支持新闻简报RSSDigg thisdel.icio.us

英特尔® 数学内核库8.1中的新增功能
英特尔® 数据内核库(英特尔® MKL)主要用于在核心产品中为Mac OS*提供支持,以及在群集版中为Microsoft Windows*提供支持。同时对核心库进行了大量的性能改进。

英特尔® 数学内核库

  • 为Apple Mac OS*提供支持
    英特尔® MKL目前支持Linux*、Windows及Mac OS。(群集版不提供)
  • 增强的快速傅立叶变换(FFT)性能。
    英特尔® MKL 8.1中的优化将FFT性能提升到前所未有的高度。了解更多信息
  • 面向FFTW 2.x接口的全新支持
    利用该接口,能够轻松将快速傅立叶变换从FFTW移植至英特尔® MKL,而不需对源代码进行任何的更改。
英特尔® 数学内核库群集版

  • 支持Microsoft Windows Compute Cluster Server 2003*。
    英特尔® MKL群集版同Linux版一样,目前支持Microsoft Compute Cluster Server 2003。
  • 增强的分散式记忆体FFT性能。通过将工作分配给大量的处理器,可提升您的FFT性能。
8.0版的性能提升
线性代数

  • 迭代稀疏矩阵解算器
  • 增强了对稀疏矩阵解算器的支持: Sparse Level-2 and Level-3 BLAS
  • LAPACK子例程的FORTRAN 90/95接口
快速傅立叶变换

  • 英特尔® MKL DFT的FFTW(西方最快速傅立叶变换)接口
矢量统计库

  • 卷积与相关
  • 新的随机数生成器与服务函数
其它

  • 区间算术
    • 基本运算: +, -, *, /
    • 四个线性解算器
  • 性能改善和错误纠正
自英特尔® MKL7.2的性能改善
  • 针对英特尔® 安腾® 2处理器的改善
    • 级别2 BLAS函数的改善:
      • Sger - 20-70%
      • Cgeru与cgerc - 50%
      • Dsyr - 10-70%
      • Ssyr - 10-50%
  • 针对含SSE3的英特尔® 奔腾® 4处理器和英特尔® 至强™ 处理器的改善
    • BLAS:大小不能被4整除的情况下,英特尔® EM64T的DGEMM改善。
      • 对于较小的大小,改善幅度约为30-40%;对于高达1000-2000的大小,改善幅度为4%。
      • 级别2 BLAS函数的改善:
        • CGERU与CGERC - 二级缓存上的改善幅度高达2倍,内存上的改善幅度为12%
        • CHER - 在二级缓存上,“大写”形式的改善幅度高达2倍,“小写”形式的改善幅度为40%;内存上的改善幅度为5-8%
        • CHER2 - 二级缓存上的改善幅度为8-25%,内存上的改善幅度为4%
        • CHER - 在二级缓存上,“小写”形式的改善幅度高达2.5倍,“大写”形式的改善幅度为10%;内存上的改善幅度为3-15%
        • CHER2 - 在二级缓存上,“小写”形式的改善幅度高达2倍,“大写”形式的改善幅度为7%;内存上的改善幅度为5-70%
        • CHBMV - 二级缓存上的改善幅度高达2倍,内存上的改善幅度为20-30%
        • CHPMV - 在二级缓存上,“小写”形式的改善幅度高达2倍,“大写”形式的改善幅度为75%;内存上的改善幅度为50-80%
    • DFT
      • 在二级缓存上,二维复数的改善幅度为25-100%,单精度实数的性能改善高达30%,对于双精度实数,性能改善高达16%
      • 在二级缓存上,三维复数的改善幅度为5-50%
    • LAPACK优化
      • BDSQR 性能改善幅度达10%-500%,具体取决于更新的奇异矢量数目(更新的矢量越少表示优化效果越好)
      • DSTEQR性能改善幅度达30-500%
自英特尔® MKL 7.0到英特尔® MKL7.2版的性能改善
  • 安腾® 2处理器
    • BLAS
      • ZHEMV 性能改善最高可达7倍
      • 在正方形矩阵上,NN与NT情况的DGEMM性能改善为1-4%;对于K维远小于M与N维的矩阵,性能改善为2-20%;alpha与beta等于1且矩阵保存在二级缓存中时,TN情况的性能改善为3-160%。
    • DFT
      • 大小最高达16 x 16 x 16时,三维DFT并行性能改善达30-90%。
  • 含SSE3的英特尔® 奔腾® 4处理器与英特尔® 至强™ 处理器
    • BLAS
      • 在正方形矩阵上,DGEMM性能改善为2-10%;对于K维远小于M与N维的矩阵则为9-20%,大型正方形矩阵(1000 x 1000)的效率达92%。
      • 在含SSE3的处理器上,对于大小高达500的矢量,DDOT、DAXPY、DSCAL及DASUM函数的性能改善达30-90%。
      • 在含SSE3的处理器上,对于大小高达500的矢量,CAXPY、(C,Z)DOTU、(C,Z)DOTC、(C,S)SCAL及(CS,CD)SCAL函数的性能改善为15-30%。
      • 在含SSE3的处理器上,DZASUM性能改善最高可达50%。
    • FFT
      • 对于大小不等于2的幂次且在10到10,000之间的矢量中的单精度复数,一维DFT性能改善达13%以上,最高可达300%
      • 大小高达16 x 16 x 16时,三维DFT并行(2 个及更多线程)性能改善高达2倍
    • 随机数生成器
      • 基本随机数生成器Wichman-Hill集合在含SSE3的英特尔至强处理器上的性能改善:
        • viRngUniformBits改善22%(从27.4 cpe到22.37 cpe)
        • vsRngUniform改善27%(从59.49 cpe到46.66 cpe)
        • vdRngUniform改善25%(从56.83 cpe到45.37 cpe)
      • ZHEEVD LAPACK函数的改善最高可达数倍,具体取决于平台。例如,在4路1.5GHz的安腾® 2处理器系统上,在大小是8000且有4个线程时,它的性能是11.08 GFLOPS,而不是以前的1.6 GFLOPS。
      • 使用OpenMP* 将LAPACK的DORMQR、CUNMQR、ZUNMQR、DLARFT、SLARFT、CLARFT、ZLARFT及ZHETRD等函数线程化。

了解更多有关英特尔® 数学内核库产品功能的信息。

1性能测试和等级评定均使用特定的计算机系统和/或组件进行测量,这些测试反映了英特尔产品的大致性能。任何系统设计或配置方面的差异均可能对实际性能结果造成影响。购买者应进行多方咨询,以评估他们考虑购买的系统或组件的性能。如欲了解更多关于英特尔产品性能的性能测试信息,请访问http://www.intel.com/cd/software/products/apac/zho/


返回至页头


英特尔® 软件   
网络
英特尔® 软件网络
  • 成员注册步骤简单且免费,马上 加入吧!
     
    评估/购买
     
     
    产品信息
     
     
    技术信息
     
     
    其他资源