集群容错的基本知识
编辑:tiantian 时间:2009-4-7 17:42:40 来自:唯实数据恢复公司
4.1.1保障数据的可靠性
4.1.1保障数据的可靠性
计算机系统的安全性可以通过操作系统、数据库系统、应用系统、网络系统、硬件系统、数据存储等6个方面的设计来保障,其核心都是保障数据安全。保障数据安全的目的是保障数据的保密性、完整性和可靠性。对于由多个单机系统互联而成的开放系统而言,数据的保密性和完整性是最重要的,而国内的大多数系统因各种原因都是封闭系统,这些系统未与外部网络互联或未提供外部访问的路径,因此,保障数据的可靠性就显得非常重要。
选择保障数据可靠性方案要根据具体的业务情况做具体分析。数据根据其变化的剧烈程度可分为活跃数据、中性数据和非活跃数据;根据其作用可分为系统数据和业务数据;根据数据量的大小又可分为1GB以下、1GB-1TB,1TB以上。不同的业务对故障恢复的时间又有不同的要求,有的业务如银行存储、信用卡、邮政汇检、电信计费、铁路客货票等业务实时性要求较高,要求故障恢复的时间短,而大部分管理信息系充对故障恢复时间的要求不高。
1、 非实时系统
对于中性数据和非活动跃数据,最可用的办法是进行数据备份,常见的数据备份方式有自动和手动,将数据备份到硬盘、磁带和磁带库或光盘库中。对于小数据量,可手工或自动备份到本地或网络硬盘中;对于大数据量或有多台需备份数据的主机,则需使用专业备份软件。网络备份软件提供了客户机/服务器结构的网络数据存储管理解决方案,通过在网络选定一台主机作为备份服务器,在其他主机上安装客户机软件,从而将整个网络上的数据自动备份到服务器指定的存储设备上,并在各客户机建立相应的备份数据索引表,实现数据自动恢复。备份软件可以支持各种存储设备,并可提供包括全备份和增量备份在内的多极备份。
保证数据可用性也可以通过保证存储安全来实现,RAID技术是最常用的方法。RAID技术将数据用各种检验算法处理后,冗余存储在多块硬盘中,以此对硬盘进行物理容错。除提高了数据存储可靠性外,由于多块硬盘并行处理,为提高了硬盘的I/O速度,给解决CPU与I/O速度的瓶劲问题提供了一个有效途径。
实现磁盘阵列的主要方式有软件方式和阵列卡方式,前者如SCO虚似磁盘管理(VDM),阵列管理软件运行在主机系统上,其化点是成本低,缺点是要过多地占用主要CPU资源,并且带宽指标上不去;而阵列卡方式把RAID管理软件固化在I/O控制卡上,从而可以不占用主机CPU资源。
2、 实时系统
数据备份和采用磁盘阵列是两种常规的数据可靠性方案。数据备份无法恢复备份这后变化了的数据,磁盘阵列技术又只能在单主机上进行,主机的其它部件如电源、CPU、主机的损坏都会导致系统无法正常工作,因此,这两种方案都不适用于对实时性要法语高的系统。对于实时生要求较高的关键业务系统,应采用集群容错系统。其实,集群系统在20世纪80年代初就已崭露头角,在民航、运输等行业已经有了广泛的应用。但是如今,在还有很大一部分用户的业务会因服务器的故障面陷入停顿的时候,这里不得不重提集群系统,以使用更多的用户了解它,让它能够支持更多的用户系统达到”永不停顿”运转的目标。
4.1.2集群系统
1集群系统的基本知识
集群(Cluster)是指一组相互独立的服务器在网络中表现为单一的系统,并以单一系统的模式加以管理,此单一系统为客户工作站提供高可靠性的服务。集群系统由一组互联的整机构成的并行或分布系统组成,可作为统一的计算资源使用。
大多数据集群模式下,集群中所有的计算机拥有一个共同的名称,集群内任一系统上运行的服务可被所有的网络客户所使用。集群必须可以协调管理各分离的组件的错误和失败,并可透明地向集群中加入组件。
在这个结构中,每台服务器都分担着一部分计算任务。由于集合了多台服务器的性能,整体的计算实力被增加了,与此同时,每台服务器还承担一些容错任务。当其中一台服务器出现故障进,系统会在软件的技持下将这台服务器从系统中隔离出去,通过各服务器之间的负载软嫁机制,完成新的负载分担,同时向系统管理人员发出警报。再者,在某个应用软件的峰值处理期间内,对该应用的需求会变得过高,那么使用简单的操作命令就可以把同一节点的应用包转移到其它节点,从而减轻该节点的工作负荷,来满足所增加的需求。集群系统就是通过功能整合和故障过渡实现了系统的高可用性和可靠性。
集群具有一定的自我修正能力,它可以保证系统7*24小时天连续不间断运行,把非计划和计划的停机时间降到最低。
2.集群与高可用性
所谓高可用性,简单地说,就是系统在使用过程中有百分之多少的时间是可用的。
一般情况下,集群系统需要达到99%-99.8%,也就是说,系统每年4天零9个小时不可用是可以接受的。在使用集群技术前提下,如果对系统进行了一些特别的优化管理,减少一些配置上不必要出现的错误,把可用性提升到99.9%~99.98%也是可以的。在某个集群中,可以使系统的可用性达到4个或5个9,对于一些容错率特别高的系统,可以达到5个9,甚至6个9以上。
怎么样才能让系统过到更高的可用性呢?通常采用提高硬件容错的软件冗余两种方式对系统进行优化,所谓硬盘容错是指当个别部件出现问题的时候,另外的一些部件能够自动接替出错部件的工作;在软件冗余技术中,集群软件被认为是目前最好的解决办法。
3.需要集群系统的原因
位于网络运转中心部位的数据中心是各种关键性商务应用的中枢点,在确保高可用性方面,服务器集群堪称是最具价格的系统级技术之一。当用户需要考虑构筑一个稳固的,永不停顿的系统时,选择集群系统是一个不错的选择,原因有如下两点。
第一, 使用集群可以提高系统的可用性。一般来讲,高可用性配置可以保证当某台服务器或应用程序发生预计之外的故障时,集群中的另外的服务器可以在继续自已份内工作的同时,承接发生故障服务器上的任务。
第二, 集群能够改善系统的可伸缩性、向现有系统内添加节点的能力以及最大限度地降低系统崩溃的概率。在这样的配置中,可以有多台服务器执行同样的应用和数据库操作;为付随之增加的复杂性,系统管理是工具不可缺少;集群还可以提高系统整体性能。总之,集群的最终目标是为用户尽量减少服务器和应用程序的停机时间。
集群技术的出现极大地聒低了企业业务在各种不可预料灾难发生时的损失,保证业务系统的7*24小时不间断运转。今天,利用服务器集群技术,经过周密的计划和网络维护,停机时间实际上是可以避免的。
4.集群系统的结构
一个集群系统是一系列独立的计算机系统的结合,客户应用与集群相互作用时,集群的作用就像一个高性能、高可靠性的服务器,系统管理人员也把集群视为一个服务器,集群技术特别适用于花费少,采用工业标准的计算机技术。
集群的方式是多样的,一个集群很可能与一个由多台标准的PC机组成的以太网络完全相同,另一方面,硬件结构也可能是一些高性能的SMP系统的一种高性能的通信和I/O总线相互连接在一起的,处理能力的增长可以通过加入新的系统逐步提高。对一个客户应用来说,集群扮演着一个服务器或单一系统的角色,实际上它可能是多个系统的组合。
随着处理信息的复杂程度或请求数量的增加,新的系统可以加入到集群中,如果集群中一个系统因故停运,它的工作流可以被自动地分散到仍在运行的其它系统中,这一转移对用户来说是完全不可见的。
5.集群和容灾
与集群的高可用性相比,高容灾性对系统提出了更高的要求。
高容灾系统比高可用系统能提供更高的高可用性和更快速的集群信息处理能力,一般情况下,只需要一分钟便可完成设备或系统的接管工作。高可用性系统被放置在同一个地理位置或一个机房里面;而高容灾系统至少需要两个机房,或分别放置在两个以上不同地理位置上。高可用性集群系统中的每个成员这间的路离通常在3M之内,但高容灾集群系统的两上机房之间的距离可以达到几百或者上千公理。一旦灾难出现,如洪水,火灾,地需或恐怖分子的骚扰,只有不同地理位置的集群系统之间的相互“接管”才可以保证整个网络系统的正常运行。高可用性系统的投资比较适中,较容易被用户接受;而高容灾系充的投入非常大,需要立足长运的投资眼光。目前,发达国家比较重视高容灾系统的投入。
原创文章如转载请注明:转载自『











