 | 介绍 作者:英特尔公司的 Padma Apparao 和 Greg Averill
客户对于系统可靠性与可用性的期望是永恒的或者说是不断提高的,然而芯片的日益复杂化以及其它硬件部署趋势使得满足这些期望变得日益困难。本文的重点在于探索如何改进采用英特尔组件构建的未来系统的可靠性。我们的建议是在平台固件之中融入新的能力,使之能够根据组件错误历史记录进行故障预测。此项目的另一重点方面在于研究瞬态误差与硬故障之间的关系。我们正在实施一项概念验证方案,开发一种驻留在固件上的故障预测代理,它能够根据上升的组件故障发生率及时通知操作系统并执行集群供应。我们的这项研究工作将为集群应用带来更加出色的检查点重启动(checkpoint-restart)技术。
|