新聞中心
當(dāng)前位置:網(wǎng)站首頁 > 新聞中心
如何確保云服務(wù)的可靠性
從客戶的角度來看,云服務(wù)應(yīng)該只是工作。但是,服務(wù)的中斷其實(shí)是不可避免的,這不是一個(gè)“是否會(huì)發(fā)生”的問題,嚴(yán)格意義上是“何時(shí)會(huì)發(fā)生”的問題。不管在線服務(wù)的設(shè)計(jì)和建成是如何的精煉,都會(huì)不可避免的遭遇到突發(fā)事件的發(fā)生。區(qū)別就在于服務(wù)提供商如何預(yù)測,并及時(shí)的從這些情況中進(jìn)行恢復(fù)。從而保證客戶的體驗(yàn)。指導(dǎo)設(shè)計(jì)原則
云服務(wù)的三大設(shè)計(jì)指導(dǎo)原則:1、數(shù)據(jù)的完整性,2、容錯(cuò)能力,3、快速恢復(fù)。這些是客戶期望滿足的三大屬性,至少,要在他們的服務(wù)中保證這三大屬性。數(shù)據(jù)完整性是指保護(hù)客戶委托服務(wù)的信息的保真度。容錯(cuò)能力是服務(wù)供應(yīng)商能夠檢測到故障,并自動(dòng)采取糾正措施,以便使得服務(wù)不會(huì)發(fā)生中斷的服務(wù)能力。快速恢復(fù)能力是指在未預(yù)料到的故障發(fā)生時(shí),能夠迅速而完全的恢復(fù)服務(wù)的能力。
作為服務(wù)服務(wù)商,我們需要盡可能的提前識(shí)別并找出各種潛在的故障,然后在服務(wù)設(shè)計(jì)階段對這些情況進(jìn)行充分的考慮。這種周全的計(jì)劃可以幫助我們決定如何確切地服務(wù),并在發(fā)生意想不到的挑戰(zhàn)時(shí)如何做出反應(yīng)。服務(wù)必須能夠從這些故障的情況下進(jìn)行恢復(fù),并保證最小的中斷。雖然我們不能預(yù)測到每一個(gè)故障點(diǎn)或每一失效模式,但利用前瞻性、業(yè)務(wù)連續(xù)性規(guī)劃和大量的實(shí)踐,我們可以制定一套緊急預(yù)案的流程,以備不時(shí)之需。
根據(jù)云計(jì)算的特點(diǎn),其可以被描述為一個(gè)復(fù)雜的系統(tǒng)組成,依賴于共享的基礎(chǔ)設(shè)施和松散的耦合的性,許多特性都是在供應(yīng)商的直接控制之外。傳統(tǒng)上,許多企業(yè)維護(hù)的內(nèi)部部署的計(jì)算環(huán)境,能夠讓他們直接控制他們的應(yīng)用程序,基礎(chǔ)設(shè)施和相關(guān)服務(wù)。然而,隨著云計(jì)算的使用量的持續(xù)增長,很多企業(yè)都紛紛開始選擇放棄一些控制權(quán),以降低成本,充分利用資源的彈性(例如,計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)資源),促進(jìn)業(yè)務(wù)的靈活性,以及??更有效地利用他們的IT資源。
理解團(tuán)隊(duì)的角色定位
從工程服務(wù)團(tuán)隊(duì)的角度來看,設(shè)計(jì)和建筑服務(wù)(相對于盒產(chǎn)品,或企業(yè)內(nèi)部部署的解決方案)意味著擴(kuò)大了他們的責(zé)任范圍。在設(shè)計(jì)企業(yè)內(nèi)部部署的解決方案時(shí),工程團(tuán)隊(duì)只需要設(shè)計(jì)建造并測試服務(wù),將其打包,然后根據(jù)軟件操作建議所描述的計(jì)算環(huán)境進(jìn)行發(fā)布即可。而相比之下,工程服務(wù)團(tuán)隊(duì)在設(shè)計(jì)建造并測試服務(wù)之后,還要進(jìn)行相關(guān)的部署和監(jiān)控,以便確保服務(wù)的繼續(xù)運(yùn)行,如果有突發(fā)事件,他們需要確保盡快的解決。而且工程服務(wù)團(tuán)隊(duì)經(jīng)常對服務(wù)計(jì)算環(huán)境具有更少的控制權(quán)!
采用故障模式及影響分析
許多服務(wù)團(tuán)隊(duì)采用故障模型(FMA)和根本原因分析(RCA),以幫助他們提高服務(wù)的可靠性,防止故障的發(fā)生。我的看法是,這些都是必要的,但還不夠。相反,設(shè)計(jì)團(tuán)隊(duì)?wèi)?yīng)采用故障模式及影響分析(FMEA)來幫助確保更有效的結(jié)果。
FMA通過可重復(fù)的設(shè)計(jì)流程旨在識(shí)別和減輕服務(wù)設(shè)計(jì)過程中的故障。RCA包括識(shí)別和確定導(dǎo)致有害結(jié)果的性質(zhì)、規(guī)模、位置和時(shí)間因素。一套整體的終端到終端的FMEA方法的主要好處包括全面的故障點(diǎn)和故障模式綜合圖,能夠形成一個(gè)工程投資的優(yōu)先級(jí)列表,以減輕已知故障的映射。
FMEA運(yùn)用系統(tǒng)可靠性工程師技術(shù)的開發(fā)研究,發(fā)現(xiàn)可能出現(xiàn)的(復(fù)雜的)系統(tǒng)故障問題。研究通過評估嚴(yán)重程度、發(fā)生的頻率和檢測能力來了解故障影響可能存在的問題,以便基于不同的風(fēng)險(xiǎn)優(yōu)先處理所需工程投資。
準(zhǔn)備階段:在此步驟中,重要的是要理解系統(tǒng)的完整性,生成一個(gè)完整的系統(tǒng)的邏輯圖,包括其組成部分、數(shù)據(jù)源和數(shù)據(jù)業(yè)務(wù)流。使用模板來完成,這提高了整體的分析結(jié)果,通過提供可能的故障點(diǎn),設(shè)計(jì)團(tuán)隊(duì)可以發(fā)掘到重要的線索。
發(fā)現(xiàn)組件間的相互作用:一切都在這一步的范圍內(nèi)。從前面所指出的邏輯圖開始,以確定所有的組件是否容易運(yùn)行失敗。了解所有組件(連接器)之間的相互作用,以及每個(gè)組件如何在完整的系統(tǒng)中發(fā)揮作用。
|