14. 软件可靠性基础
基本概念
- 软件产品在规定的条件下和规定的时间区间完成规定功能的能力
- 软件可靠性与硬件可靠性的区别
- 软件复杂性比硬件高
- 软件不存在物理退化
- 软件是唯一的
- 硬件更新较慢,软件较快
- 软件可靠性的定量描述
- 规定时间
- 失效概率
- 可靠度
- 失效强度
- 平均失效时间 MTTF:发生故障前正常运行的时间
- 平均恢复前时间 MTTR:发生故障后的修复时间
- 平均故障间隔时间 MTBF = MTTF + MTTR,失效或维护中所需的平均时间
- 串并联系统的可靠性
- 假设每个设备的可靠性是 R1、R2 … Rn
- 串联系统:R = R1*R2*…*Rn
- 并联系统:R=1-(1-R1)*(1-R2)*…*(1-Rn)
- 意义
- 失效会造成灾难性后果
- 失效在整个计算机系统失效中比例较高
- 软件可靠性技术很不成熟
- 软件可靠性问题是造成费用增长的主要原因之一
- 软件对生产活动和社会生活的影响越来越大
- 广义的软件可靠性测试:运用建模、统计、试验、分析和评价等一系列手段对软件系统实施的一种测试
- 狭义的软件可靠性测试:获取可靠性数据,按预先确定的测试用例,在软件的预期使用环境中,对软件实施的一种测试
软件可靠性建模
- 为预计或估算软件的可靠性所建立的可靠性框图和数学模型
- 影响软件可靠性的主要因素包括:运行环境、软件规模、软件内部结构、软件的开发方法和开发环境、软件的可靠性投入
- 软件的可靠性模型组成
- 模型假设
- 性能度量
- 参数估计方法
- 数据要求
- 绝大多数模型包含三个共同假设
- 代表性假设
- 独立性假设
- 相同性假设
软件可靠性管理
- 目标:全面提高和保证软件可靠性
- 主要对象:软件可靠性活动
- 内容:软件工程的各个阶段的可靠性活动的目标、计划、进度、任务和修正措施
软件可靠性设计
- 保障软件可靠性最好的方法:软件设计阶段采取措施
- 可靠性设计即在常规的软件设计中,满足软件的可靠性要求
- 原则:
- 是软件设计的一部分
- 以提高和保障软件可靠性为最终目标
- 应确定软件的可靠性目标
- 主要技术:容错设计、检错设计和降低复杂度设计
- 技术可分为避错技术和容错技术
- 避错:通过技术评审、系统测试和正确性证明等技术,在正式运行之前避免、发现和改正错误
- 容错:运行过程中发生一定的硬件故障或软件错误时,仍能保持正常工作而不影响正确结果,主要采用冗余方法
- 冗余是容错技术的基础
- 主要方法是提供足够的冗余信息和算法程序,使系统在实际运行时能够及时发现程序设计错误,采取补救措施
- 软件容错技术有 N 版本程序设计、恢复块方法和防卫式程序设计等
- N 版本程序设计:N 个具有相同功能的程序同时执行一项计算,多数表决来选择结果。N 个版本的程序由不同的人独立设计、使用不同的方法、设计语言、开发环境和工具来实现
- 恢复块设计(动态冗余):多重模块待机储备,当出现错误时,用一个备用的模块来代替并重新运行,各备用模块在待机时可一样工作、也可以不工作
- 防卫式程序设计:不采取任何传统的容错技术就能实现软件,在程序中包含错误检查代码和错误恢复代码,使得一旦发生错误,程序就能撤销错误状态,恢复到一个已知的正确状态中去
- 双机容错技术:软硬件结合,两台服务器和一个外接共享磁盘阵列以及相应的双机软件组成
- 心跳方法保证联系,按照一定的时间间隔发送通信信号
- 工作模式:双机热备模式、双机互备模式、双机双工模式
- 集群技术:多台计算机组织起来协同工作,每台计算机承担部分计算任务和容错任务,通过计算机的负载转嫁机制完成新的负载分担
- 负载均衡:集群系统中的一项重要技术,目的是加快集群系统的响应速度,提高客户端访问的成功概率,最大特征是多个节点的并行和共同工作,如何让所有节点承受的负荷平衡,主要技术
- 基于特定软件的负载均衡(应用层):重定向
- 基于 DNS 的负载均衡属于传输层负载均衡
- 基于 NAT 的负载均衡
- 反向代理负载均衡
- 混合型负载均衡
软件可靠性测试与评价
- 由以下活动组成
- 可靠性目标的确定
- 运行剖面的开发
- 测试用例的设计
- 测试实施
- 测试结果的分析
- 运行步骤:定义软件运行的剖面 —— 设计可靠性测试用例 —— 实施可靠性测试
- 可靠性评价的三个过程:选择可靠性模式、收集可靠性数据、可靠性评估和预测
- 可靠性数据的收集:收集软件失效数据
- 可靠性评估和预测:判断是否达到了可靠性目标