新聞中心
當(dāng)前位置:網(wǎng)站首頁 > 新聞中心
“宕機”背后:云安全的問題有多少?
近日,阿里云突發(fā)的宕機事件又將云安全推到風(fēng)口浪尖,但是比起賠償,業(yè)內(nèi)人士更加關(guān)注此次宕機事件帶來的影響和事件背后折射出的問題。經(jīng)過十余年的發(fā)展,中國的云計算市場已經(jīng)初具規(guī)模,各種新技術(shù)、新應(yīng)用、新場景、新架構(gòu)成為公有云/私有云平臺市場能夠保持快速、持續(xù)增長的助推器。目前越來越多的企業(yè)將其業(yè)務(wù)系統(tǒng)、數(shù)據(jù)部署在云上,云服務(wù)器一旦宕機,企業(yè)業(yè)務(wù)必然會受波及。因而安全被各企業(yè)視為頭等要務(wù)。理論上不存在“永不宕機”的云
事實上,不止是阿里云,其他云服務(wù)提供商也都出現(xiàn)過宕機事件。僅2018年一年,全球主流云計算廠商曾發(fā)生數(shù)十起宕機事故。2018年1月18日,谷歌云自動化失效導(dǎo)致宕機;
2018年3月2日,AWS宕機致部分Alexa失聲;
2018年5月31日,AWS北弗吉尼亞地區(qū)數(shù)據(jù)中心出現(xiàn)硬件問題;
2018年6月17日,因愛爾蘭數(shù)據(jù)中心的恒溫系統(tǒng)出現(xiàn)問題,微軟Azure愛爾蘭數(shù)據(jù)中心宕機;
2018年7月20日,騰訊云云硬盤故障;
2018年9月4日,微軟云Azure數(shù)據(jù)中心遭雷劈宕機;
2018年11月9日,谷歌公有云下的Kubernetes服務(wù)(GKE)宕機……不難發(fā)現(xiàn),雖然宕機的原因不盡相同,但宕機卻時有發(fā)生。
據(jù)悉,云服務(wù)產(chǎn)生故障的原因一般分為兩類:一是因為誤操作導(dǎo)致的問題(其實用不用云服務(wù)都有這個問題),二是云平臺故障導(dǎo)致的問題。中國信息通信研究院云計算與大數(shù)據(jù)研究所所長何寶宏也表示,目前發(fā)生的宕機事故約80%是因為技術(shù)人員操作不規(guī)范或誤操作導(dǎo)致的,相比于“誤操作”,云平臺故障的技術(shù)問題僅占20%。
云服務(wù)提供商的云平臺可提供服務(wù)器快照、數(shù)據(jù)庫備份和日志備份等諸多功能,這些功能為企業(yè)帶來了便利,遠(yuǎn)比企業(yè)自己構(gòu)建類似的服務(wù)簡單好用,但是涉及到權(quán)限問題就值得思考了。使用云平臺上的賬戶權(quán)限管理時,嚴(yán)格地避免無意或者惡意的“誤操作”很重要,因為如果云服務(wù)管理權(quán)限每個人都有,那么很容易出現(xiàn)“誤操作”的問題,所以要嚴(yán)格控制賬戶管理的權(quán)限。
無論是傳統(tǒng)的環(huán)境,還是云環(huán)境,都不能做到絕對的“持續(xù)可用”。何寶宏對此表示,理論上任何技術(shù)或者服務(wù)出現(xiàn)中斷都是不可避免的,僅是概率大小的問題。
雖然所有的云服務(wù)都不是絕對安全的,沒有辦法100%保證正常的系統(tǒng)。但是大部分情況下,云環(huán)境的可用性和可靠性都比傳統(tǒng)環(huán)境高,這主要是因為云平臺的運維更加專業(yè)。可見,盡管云會發(fā)生故障,但云仍然是值得信任的。
服務(wù)可靠性、業(yè)務(wù)連續(xù)性需不斷加強
未來云服務(wù)或?qū)⑾袼娒阂粯映蔀榛A(chǔ)設(shè)施。停電1分鐘,對于一般家庭而言,也許只意味著少看一會兒電視、少吹一會兒空調(diào),但對于企業(yè)而言,或許意味著一條生產(chǎn)線的癱瘓、整個生產(chǎn)流程的推倒重來。同理,云服務(wù)器宕機1分鐘,對于云服務(wù)提供商來說是一次運維故障,但對企業(yè)而言,或許意味著客戶的流失甚至破產(chǎn),特別是不可逆的故障不是云服務(wù)提供商賠償就能挽回的。
有業(yè)內(nèi)專家透露,宕機的后果可以分為兩類,一種是可恢復(fù)的,一種是不可恢復(fù)的。例如,此前騰訊云因硬盤故障導(dǎo)致一家初創(chuàng)公司近千萬元級的平臺數(shù)據(jù)丟失,且不能恢復(fù),讓騰訊云元氣大傷,與之相比,阿里云的損失就沒有那么慘了。
可見此次事件折射出來的問題并不完全屬于云安全范疇,而是隨著云計算在各垂直領(lǐng)域的不斷滲透,云服務(wù)的可靠性、業(yè)務(wù)連續(xù)性成為下一步發(fā)展云計算的重中之重。
可靠性和業(yè)務(wù)連續(xù)性一直是電信業(yè)非常重視的指標(biāo),而云廠商對于服務(wù)可靠性的要求還不夠。何寶宏指出,該問題并不只出現(xiàn)于云廠商提供的服務(wù)中,而是新興行業(yè)發(fā)展初期常常會遇到的問題。例如,2016年國家電網(wǎng)公司經(jīng)營區(qū)域內(nèi)城市配電網(wǎng)和農(nóng)村配電網(wǎng)的供電可靠率分別達(dá)到99.946%、99.782%,但隨著近年來工業(yè)互聯(lián)網(wǎng)的需求越來越大,對電網(wǎng)的依賴性越來越高,99.9999%的供電可靠率也逐漸出現(xiàn)。由此可見,一項服務(wù)的可靠性可以隨著人們對于該服務(wù)的依賴性而越來越高的。
未來,云服務(wù)的可靠性和業(yè)務(wù)連續(xù)性將會隨著企業(yè)上云以及垂直行業(yè)對云服務(wù)的依賴程度越來越高而不斷提升。當(dāng)然這樣的提升需要更多經(jīng)驗的積累和時間的考驗,眼下還是應(yīng)該盡量避免宕機事件的發(fā)生。?
“多云”部署或成為新的保障
諸多宕機事件告訴我們,不論是公有云還是私有云,面對天災(zāi)人禍,都不能獨善其身。為減少業(yè)務(wù)中斷帶來的損失,云服務(wù)廠商需要構(gòu)建云容災(zāi)方案。
何寶宏指出,預(yù)防宕機發(fā)生可以從多個方面著手。
一是云廠商技術(shù)上的完善,即增強云服務(wù)的可靠性和業(yè)務(wù)連續(xù)性,但毋庸置疑的是無論可靠性達(dá)到幾個9都無法保證云服務(wù)“永不宕機”。
二是企業(yè)需根據(jù)自身特點選擇云災(zāi)備和云保險服務(wù),盡量在經(jīng)濟和人員條件可行的情況下使用這些分散風(fēng)險,如果故障只出現(xiàn)在一個服務(wù)器集群,如果采用異地災(zāi)備的方案,就可以在最快時間切換到另一個集群下,保持系統(tǒng)可用;云保險則是企業(yè)的最后一道保障。
三是增強用云規(guī)范意識,為避免由于人員的誤操作或者相關(guān)人員操作不規(guī)范造成的宕機事故,相關(guān)企業(yè)和政府機構(gòu)應(yīng)加強技術(shù)人員的培訓(xùn)和災(zāi)備意識的建立,企業(yè)的IT人員日常應(yīng)做到異機備份、數(shù)據(jù)容災(zāi)、業(yè)務(wù)雙活、定期對災(zāi)備和雙活進(jìn)行演練等,盡可能避免云故障帶來的損失。
宕機事件的發(fā)生使不少企業(yè)對云服務(wù)的部署方式產(chǎn)生了質(zhì)疑,于是,“多云戰(zhàn)略”成為很多企業(yè)正在考慮的方案。業(yè)內(nèi)分析師也坦言,真正安全的方式需要將重要業(yè)務(wù)分別放在不同的“籃子”里,也就是選擇多個供應(yīng)商,進(jìn)行“多云”部署?!岸嘣啤辈渴鸨旧硪彩且环N災(zāi)備預(yù)案,如果自身服務(wù)非常重要,可以考慮租用多個云服務(wù)互為主備,或者自建機房,只是這樣成本和技術(shù)復(fù)雜度會成倍增加。
對于初創(chuàng)企業(yè)或中小企業(yè)而言,自建機房的運維難度很大,運維水平也遠(yuǎn)低于大的云服務(wù)廠商,因而故障概率更大、損失更加不可控。所以采用多云或混合云可能是未來最為靠譜的方案,純公有云、純私有云都是不太安全的解決方案。
而有實力的企業(yè)應(yīng)該盡可能自建服務(wù)器,將核心數(shù)據(jù)、核心業(yè)務(wù)邏輯放在自己的內(nèi)網(wǎng)服務(wù)器上,前端模塊等可以考慮放在公有云服務(wù)器上,這樣的話可以最大限度地實現(xiàn)分離,保障企業(yè)的用云安全。
|