- 概念
- 系统可靠性:无故障运行的概率
- 可用性:某个给定时间点上系统按照需求执行的概率
- 可靠度:规定条件下规定时间内不发生失效的概率
- 失效率:未出现失效的情况下单位时间系统出现失效的概率
- 提高可靠性的技术
- 避错技术:系统运行执行避免发现改正,技术评审、系统测试和正确性证明
- 容错技术:运行过程中发生错误时保持正常工作而不影响正确结果,冗余方法是容错的基础
- 软件容错的方法:提供足够的冗余信息和算法程序,使得系统在实际运行时能够及时发现程序设计错误,采取补救措施
- N 版本程序设计:N 个具有相同功能的程序同时执行一项计算,结果通过多数表决选择。不同人独立设计、不同的方法、不同的语言、不同的开发环境和工具
- 恢复块方法(动态冗余):多重模块待机储备,出现错误时使用备用模块替代它重新运行
- 防卫式程序设计:在程序中包含错误检查代码和错误恢复代码,一旦发现错误程序就能撤销错误状态,恢复到一个已知的正确状态中去
- 双机容错技术:软硬件结合,两台服务器和一个外接共享磁盘阵列和响应的双机软件组成;通过心跳机制保证,工作模式:双机热备、双机互备、双机双工
- 集群技术:多台计算机组织起来协同工作,每台计算机承担部分计算任务和容错任务
- 负载均衡
- 集群系统中重要技术,目的是加快集群系统的响应速度、提高客户端访问的成功概率,多节点并行和共同工作,让所有节点承受的负荷平衡
- 主要技术
- 基于特定软件的负载均衡(应用层),重定向功能
- 基于 DNS 的负载均衡(传输层)
- 基于 NAT 的负载均衡
- 反向代理负载均衡
- 混合型负载均衡