4.总在正常运行
虚拟化的悖论是:它消除了对硬件的依赖,但同时也使硬件更为重要。虚拟机的合并更加依赖硬件的可靠性,因为更少的物理服务器现在要支持一个虚拟机的大集合。
关键业务应用对一个公司的运营是至关重要的。当一台服务器必须支持多个工作负荷时,作为合并业务处理的一部分来看,甚至非关键应用也变得至关重要。
虽然有多种解决方案可以提高应用的可靠性,容错提供了一种基于硬件的方法,能够确保连续的正常运行时间。
9的个数
如果100%的是完美的话,那么99.999+%的可用性算佳了。解决方案怎么做才能达到这个指标?先试试最普通老的99%吧!这是正确的做法, x86服务器往往能让其上运行的服务平均达到99%的可用性。这看起来相当不错,直到你认为这对你的组织意味着什么。两个9的可用性意味着系统在一年中的意外停机时间达到了87.6小时–而你决不会希望有这些小时!现在来考虑一下停机一小时的成本:一般公司的损失在10万至15万美元之间。你可以自己算算。
可以比较容易地达到三个9:99.9%。它所需要的一台好服务器只需带有冗余电源、风扇和一个磁盘阵列(RAID),再加上最佳实践。你可以得到三个9,相当于每年有8.76小时的意外停机时间。这看上去似乎是一个大的跃进,但在高峰处理时段的停机时间仍然严重地突破了你的底线。
再上一个等级为99.95%的正常运行时间往往需要集群技术。通常称为高可用性(HA)解决方案。失效后,集群会在一个健康的系统上重启应用。有些集群方案声称自己达到了99.99%,但一年只有52分钟的停机时间方案需要一种真正精心打造的集群,使应用能够非常迅速地进行故障切换。许多常见的集群应用,如数据库无法迅速地进行故障切换,因为出现失效后,他们必须检查文件的完整性和重放事务日志。
所以任何系统的最佳是五个9:即99.999%的可用性,它多增加了一个9,那么一年的停机时间就成了五分钟!为了达到这个数字,你首先需要避免系统失效,而不是试图从中恢复。看一看图4-1,让你有个视觉感受。
图4-1:9的个数表。(每年的成本是按照每小时意外停机损失10万美元计算)。
所以你认为需要容错
术语高可用性和容错能力在所有的时间都在交替使用,这会导致混乱。传统的HA解决方案通常包括数据复制或旨在从失效中恢复的集群。然而,在这些情况中,系统失效确实发生了。为了从失效中恢复,应用要在一个健康的系统上重新启动。在大多数情况下,这需要应用具有集群感知,这可能包含你IT人员编写的脚本。在容错服务器中,每一个组件为双份并在各自的硬件中同步地运行。这意味着这些组件在同一个CPU时钟周期上处理相同的指令。如果某一部分出现故障,它的对应伙伴能保持正确的处理。这就是为什么一个容错的服务器系统并没有故障切换或重新启动。
容错也保证了所有的数据是可用的,甚至当硬件组件故障,数据写入了磁盘或是内存(称为飞行中的数据)。
不是所有的容错结构都相同。一些虚拟化方案用软件模拟容错,但这有几处缺点。首先,它本质上创建了另一个影子虚拟机(VM),在一个基于软件的环境中步调一致地处理指令。软件仿真会引发硬件大量的开销。这会大大地影响性能,因为CPU不得不处理这种负载。至于对过去单一CPU内核能力的扩展也会有限制,肯定不适合那些高消耗的业务应用和数据库。
相比之下,有些体系结构是基于全功能的硬件容错。这种系统从一开始就作为容错平台而设计。应用程序能够充分利用多核对称多处理的优势。硬件容错确保了性能最大、正常运行时间最长和数据保护最全。
硬件容错等于正常运行时间
硬件容错的产品和服务旨在自动防止停机和数据丢失。这种先进的正常运行时间使用了独有的技术,有多年保证关键应用不停机运行的经验和历史。
今天,硬件容错的客户使用即插即用功能确保正常运行时间而获益,实现了物理服务器、虚拟服务器或云计算(见图4-2)的无后顾之忧。
图 4-2: 确保正常运行时间
这些集成的正常运行时间技术嵌入到每一台容错服务器产品和服务中,保证了在所有时间上的正常运行时间:
● 弹性容错服务器硬件:双重步调一致的硬件能承受会导致其他服务器崩溃的故障。
● 自动化正常运行时间层:预测技术持续监视上百个系统组件和传感器,自动识别、隔离、处理和报告问题–在它们会导致停机或数据丢失之前。
● 主动可用性监控和管理:硬件容错正常运行时间的专家在一个安全的全球网络上远程监视系统。利用由自动化正常运行时间层提供的信息,这些专家可提供24/7远程诊断并修复复杂的问题。
5.服务是容错的关键
无论怎样精心设计组件,偶尔的失败在所难免。几乎每个IT人都明白这一点,但真正的衡量标尺是你如何处理它。硬件容错防止停机的第一道防线是嵌入到每个系统的组件怎么做。弹性服务器可以跨过许多错误。如果某个部件发生故障时,系统能继续运行,并自动“告知家里”,报告问题并要求更换组件。
跟着太阳转7/24/365
在清醒的时候,对大多数人来说都是最好的时间。随着新的虚拟化主机上运行多个关键业务VM,你可不能高枕无忧了。
但是,如果你需要一种良好踏实的睡眠,则需要找到一个容错的服务器。有了硬件容错的服务器系统,你就可以安稳入眠了。在7/24/365中,这些服务器被一个安全的全球主动服务网络所监视。
利用自动化正常运行时间层提供的信息,硬件容错服务专家几乎能够解决所有的问题,使你的系统保持连续正常地运行。不需要等待维修技术人员的到达,能让你的业务返回正常。
在故障之前就修复
尽管系统有时可能像电脑故障产生黑屏,在发生这种情况以前,通常都会有迹象指示。诸如像组件的温度、风扇的转速和硬盘驱动器的错误等,所有这些都预示着失效要发生。关键是要引起注意并跟踪这些指标,然后把它们聚集在一起。大多数人都不是很擅长于此,因为这需要大量的细节工作。一个CPU中1度的温差似乎不是一个问题-- 如果环境温度可以接受的话,系统不会负担过重;但如果CPU温度攀升,有可能一个问题正在酝酿。每个硬件冗错服务器有一个内置的自动正常运行时间层,充当防御停机的第一道防线。它跟踪和提醒你团队可能被忽略的多个重要细节。
自动化正常运行时间层不断监视500多个系统组件和传感器,识别、处理和报告故障–在它们影响你的业务应用之前。这就像有一个专门的技术人员监视服务器。这种虚拟技术人员永远不会疲倦,永不懈怠,始终着眼于大局,提供根本原因并分析数据。
告知家里
即使是最熟练的技术人员每过一段时间也会达到其技术的极限,这时最好寻求帮助。就像与人交往,寻求帮助是一种技能和成熟的标志,而不是弱点。寻求一台服务器帮助,要比找到设计它的人员会更好。这就是为什么硬件容错服务器会自动“告知家里”,到客户服务中心(CAC)去报告硬件和软件问题。所以当糟糕的事情发生时,信息立即发送到可以修复它的人。即使一个组件发生故障,一个硬件容错服务器系统还能继续运行,且不会降低性能、数据丢失或即使有最微不足道的停机时间。
所有部分做成了一个容错的系统
一个关于容错系统的最好和最坏的事情就是:在一个组件故障后,系统保持工作并且没有人知道。这让客户很开心,但即使没有引起你的足够关注,硬件容错服务器也会通知你。这就是为什么这种全功能硬件容错服务器的功能能够超过商用服务器和服务器集群。
硬件容错架构在软件故障和单项硬件组件失效时保护了组织。虽然冗余是一个方面,还有更多的容错工作,而不仅仅是硬件设计。它包括硬件、软件和服务技术的协同工作,防止停机和数据丢失。
如果用户是那些需要马上入睡的人,使用了硬件容错服务器系统,用户不需要改变自己的职业生涯,在一个全功能的容错服务器上虚拟化关键业务应用和数据库,对用户和组织机构都是一件幸事!