UNIX平臺(tái)廉價(jià)雙機(jī)容錯(cuò)方案
由于有多種方式來(lái)提高系統(tǒng)的可用性,但每種方式又各有利弊,因此設(shè)計(jì)者往往需根據(jù)用戶(hù)的實(shí)際可靠性與可用性的要求選擇不同的解決方案。這也取決于系統(tǒng)的需求:硬件的容錯(cuò)方案往往運(yùn)行速度較快但投資規(guī)模也大,軟件容錯(cuò)方案可能占用系統(tǒng)開(kāi)銷(xiāo),但比硬件方案更靈活,尤其是在系統(tǒng)已經(jīng)建立起來(lái)之后,并且投資小。本文所介紹的容錯(cuò)系統(tǒng)就是利用浪潮英信服務(wù)器可靠性平臺(tái)和Western Micro的專(zhuān)用技術(shù),通過(guò)軟件方式,而不借助陣列柜或其它專(zhuān)用硬件來(lái)實(shí)現(xiàn)系統(tǒng)容錯(cuò),達(dá)到提高系統(tǒng)可用性的目的。
設(shè)備選型
在本方案中,我們使用浪潮英信服務(wù)器——網(wǎng)通NL300,這是因?yàn)樵摽罘?wù)器具有如下鮮明的特點(diǎn),特別是在可靠性、性能、擴(kuò)展性方面都有出色的表現(xiàn):
采用最新的Intel Pentium Ⅲ Xeon處理器,性能出色,可靠性高,可擴(kuò)展性強(qiáng)。同時(shí)采用業(yè)界先進(jìn)的系統(tǒng)體系結(jié)構(gòu),包括133MHz SDRAM、64-bit/66MHz PCI、和最新的FSB為133MHz的Intel Pentium Ⅲ Xeon處理器,提供了兩路服務(wù)器所能提供的超強(qiáng)性能。
除了超強(qiáng)的性能以外,為了保護(hù)用戶(hù)的投資,使得服務(wù)器能夠隨著用戶(hù)業(yè)務(wù)的增長(zhǎng)而不斷的提升性能,網(wǎng)通NL300預(yù)留了充足的內(nèi)部擴(kuò)展能力:系統(tǒng)一共以提供16個(gè)存儲(chǔ)槽位,其中包括9個(gè)熱插拔硬盤(pán)槽位,滿(mǎn)足用戶(hù)不斷增長(zhǎng)的存儲(chǔ)要求;系統(tǒng)提供了6個(gè)PCI插槽和一個(gè)ISA插槽,并且支持最新的64位PCI技術(shù),可以安裝高性能的擴(kuò)展卡,滿(mǎn)足您不斷提升的性能要求;另外,內(nèi)存可以擴(kuò)展到4GB,并支持兩路處理器。最大限度的保護(hù)投資。
此外,為了保證用戶(hù)關(guān)鍵業(yè)務(wù)的穩(wěn)定運(yùn)行,網(wǎng)通NL300提供了極高的可用性,包括ECC內(nèi)存、熱插拔硬盤(pán)、熱插拔電源和故障預(yù)測(cè)技術(shù)。擁有了以前高端計(jì)算機(jī)才擁有的特性。
系統(tǒng)平臺(tái)
浪潮網(wǎng)通NL300服務(wù)器兩臺(tái)(可以是不同配置,配置雙網(wǎng)卡);
SCO Unix操作系統(tǒng)兩套;
數(shù)據(jù)庫(kù)系統(tǒng)一套;
SavWareHA軟件一套;
RS232串口線、CAT5類(lèi)直連(NO HUB)網(wǎng)線各一根。
通過(guò)上圖我們可清楚地看到兩臺(tái)服務(wù)器各自配備雙網(wǎng)卡,它們各自通過(guò)其中一塊網(wǎng)卡接入公共網(wǎng)絡(luò),通過(guò)這個(gè)連接向網(wǎng)絡(luò)中的其他客戶(hù)提供服務(wù)。而另一對(duì)網(wǎng)卡用于它們之間的互連,這條通道就是在兩臺(tái)服務(wù)器之間進(jìn)行大量數(shù)據(jù)傳送的專(zhuān)用通道,它負(fù)責(zé)兩臺(tái)主機(jī)之間同步數(shù)據(jù)的傳送工作;而串口線在兩臺(tái)機(jī)器之間傳遞心跳信號(hào),用于檢測(cè)服務(wù)器的狀態(tài),以判斷是否進(jìn)行業(yè)務(wù)以及主機(jī)地址的接管。
系統(tǒng)工作過(guò)程
1) 自動(dòng)偵測(cè)(Auto-Detect)階段:
由服務(wù)器上的軟件通過(guò)偵測(cè)線,經(jīng)由復(fù)雜的監(jiān)聽(tīng)程序。邏輯判斷,來(lái)相互偵測(cè)對(duì)方運(yùn)行的情況,所檢查的項(xiàng)目有:
服務(wù)器硬件(CPU和周邊);
服務(wù)器網(wǎng)絡(luò);
服務(wù)器操作系統(tǒng);
數(shù)據(jù)庫(kù)引擎及其它應(yīng)用程序;
為確保偵測(cè)的正確性,而防止錯(cuò)誤的判斷,可設(shè)定安全偵測(cè)時(shí)間,包括偵測(cè)時(shí)間間隔,偵測(cè)次數(shù)以調(diào)整安全系數(shù),并且由服務(wù)器之間的專(zhuān)用通信連線,將所匯集的訊息記錄下來(lái),以供維護(hù)參考。
2) 自動(dòng)切換(Auto-Switch)階段:
如果備機(jī)確認(rèn)對(duì)方故障,則它除繼續(xù)進(jìn)行原來(lái)的任務(wù),還將依據(jù)各種容錯(cuò)備援模式接管預(yù)先設(shè)定的備援作業(yè)程序,并進(jìn)行后續(xù)的程序及服務(wù)。
3) 自動(dòng)恢復(fù)(Auto-Recovery)階段:
在備機(jī)代替故障主機(jī)工作后,故障服務(wù)器可離線進(jìn)行修復(fù)工作。在故障修復(fù)后,透過(guò)專(zhuān)用通訊線與備機(jī)連線,自動(dòng)切換回修復(fù)完成的服務(wù)器上。整個(gè)回復(fù)過(guò)程完全可由SavWareHA自動(dòng)完成,亦可依據(jù)預(yù)先配置,選擇回復(fù)動(dòng)作為半自動(dòng)或不回復(fù)。
方案特點(diǎn)
本方案充分利用容錯(cuò)系統(tǒng)的特點(diǎn),為用戶(hù)提供一種在SCO平臺(tái)下不依賴(lài)于外加磁盤(pán)陣列柜的純軟件高可用性系統(tǒng)。它可以通過(guò)網(wǎng)絡(luò)連接在兩臺(tái)服務(wù)器之間實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)備份,同時(shí)又采用一些監(jiān)控手段,當(dāng)主服務(wù)器發(fā)生故障時(shí)可以把業(yè)務(wù)切換到備份服務(wù)器上使用,從而真正實(shí)現(xiàn)系統(tǒng)容錯(cuò),保證系統(tǒng)的高可靠運(yùn)作。
下面是其主要特點(diǎn):
1) 專(zhuān)業(yè)設(shè)計(jì)的硬件平臺(tái)——浪潮網(wǎng)通NL300服務(wù)器,采用對(duì)稱(chēng)多處理器、ECC 內(nèi)存、冗余熱拔插電源、熱拔插硬盤(pán)、冗余風(fēng)扇等,提高了單機(jī)系統(tǒng)的可用性;
2) 自動(dòng)實(shí)時(shí)對(duì)數(shù)據(jù)進(jìn)行鏡像,自動(dòng)監(jiān)測(cè)工作主機(jī)的狀態(tài),并自動(dòng)對(duì)錯(cuò)誤的發(fā)生作出相應(yīng)處理;
3) 故障應(yīng)用自動(dòng)切換功能,可通過(guò)監(jiān)控業(yè)務(wù)的運(yùn)行情況,一旦發(fā)現(xiàn)業(yè)務(wù)運(yùn)行出錯(cuò),能夠自動(dòng)切換業(yè)務(wù)運(yùn)作服務(wù)器;切換發(fā)生時(shí),備份服務(wù)器自動(dòng)接管原來(lái)服務(wù)器的用戶(hù)連接、數(shù)據(jù)庫(kù)進(jìn)程、應(yīng)用進(jìn)程等,無(wú)需人工干預(yù);
4) 方便的用戶(hù)管理界面,靈活的管理方式,通過(guò)預(yù)留程序接口,方便用戶(hù)自行定義監(jiān)控的項(xiàng)目,自定義切換前后,將自動(dòng)執(zhí)行的關(guān)閉進(jìn)程指令集合及啟動(dòng)進(jìn)程指令集合;
5) 支持手工切換。用戶(hù)可以隨時(shí)將系統(tǒng)的控制權(quán)在兩臺(tái)主機(jī)之間切換;
6) 支持真正的在線連接與分離(兩臺(tái)主機(jī)通過(guò)網(wǎng)絡(luò)連接,可以支持帶電的連接與分離),利于用戶(hù)的系統(tǒng)維護(hù)等操作;
7) 系統(tǒng)具有極高的工作效率和廣泛的應(yīng)用,這是因?yàn)椋慌cSCO Unix操作系統(tǒng)緊密聯(lián)系,與數(shù)據(jù)庫(kù)及應(yīng)用無(wú)關(guān),因而它可以支持各種數(shù)據(jù)庫(kù)(包括ORACLE、Sybase、Informix等),和用戶(hù)在其上開(kāi)發(fā)的各種應(yīng)用;
8) 與用戶(hù)的應(yīng)用系統(tǒng)無(wú)關(guān),用戶(hù)可以不加修改地使用他們的應(yīng)用;
結(jié)束語(yǔ)
本方案充分考慮中小型企業(yè)以及金融、電信、鐵路、證券的一些基層單位。通過(guò)利用對(duì)重要數(shù)據(jù)的鏡像,以及用戶(hù)應(yīng)用程序運(yùn)行主機(jī)的自動(dòng)切換功能,為重要業(yè)務(wù)的運(yùn)作提供有力的保障;而純軟件的方式,又可節(jié)約大量資金投入。

網(wǎng)公網(wǎng)安備