新聞中心
當(dāng)前位置:網(wǎng)站首頁 > 新聞中心
云計算事故不斷,企業(yè)上云如何避免因事故造成損失?
阿里云再次發(fā)生故障,這已是2019年的第二起。3月2日23時55分左右,阿里云開始出現(xiàn)大規(guī)模宕機(jī)故障,位于華北地區(qū)的多家互聯(lián)網(wǎng)公司的IT運(yùn)維人員發(fā)現(xiàn)多個APP和網(wǎng)站開始陷入卡頓。這場事故,持續(xù)了三個小時左右。經(jīng)緊急排查處理后,3月3日早間云服務(wù)全部恢復(fù)正常。針對故障,阿里云表示會根據(jù)SLA協(xié)議(服務(wù)合同),盡快處理賠償事宜。
十天前,阿里云今年的第一起事故被曝光。2月22日,有媒體報道了阿里云云效平臺的源代碼泄露問題,涉及40 家企業(yè)共 200 余項(xiàng)目,甚至還波及用戶隱私敏感數(shù)據(jù)。此事還引起了“Internal之爭”,即Internal權(quán)限到底是公司內(nèi)部公開還是對整個云效平臺公開,不同企業(yè)有不同理解,但最終還是造成了源碼泄露。后來,阿里云就此事作出回應(yīng),并在網(wǎng)站醒目標(biāo)識并給出告警。
事實(shí)上,阿里云源代碼泄露問題在去年8月就已被用戶發(fā)現(xiàn),只是到今年2月份才被媒體曝出。01
縱觀近幾年云計算發(fā)展,云計算事故就沒有停止過。不管是知名云計算廠商,還是剛上路的云計算初創(chuàng)企業(yè),服務(wù)器中斷以及客戶數(shù)據(jù)丟失等問題,頻頻困擾著云計算企業(yè)。
2012年圣誕節(jié)前夕,亞馬遜AWS的彈性負(fù)載均衡服務(wù)出錯,導(dǎo)致Netflix停機(jī)。
2014年11月18日,由于軟件更新及性能增加,微軟zure存儲服務(wù)發(fā)生大規(guī)模斷電,這種情況在2015年12月再次發(fā)生。
2016年5月9日,Salesforce.com的硅谷NA14實(shí)例脫機(jī),導(dǎo)致其斷電超過24個小時。從那之后,Salesforce將其大部分工作量轉(zhuǎn)移到了AWS上。
2016年10月21日,甲骨文旗下的DYN(DNS業(yè)務(wù))遭遇了一系列分布式拒絕服務(wù)(DDoS)攻擊,致使Airbnb、Twitter、 Amazon、Ancestry、 Netflix及PayPal等公司的業(yè)務(wù)均受到不同程度的影響。
02
即便云計算安全技術(shù)及防御設(shè)施不斷進(jìn)步,云計算故障仍舊時有發(fā)生。據(jù)不完全統(tǒng)計,單是2018年就有數(shù)十起云計算故障發(fā)生,涉及國內(nèi)外各大知名云計算平臺。其中比較有影響的,包括以下幾個事故。
4月6日,微軟Office 365和Azure Active Directory訪問出現(xiàn)問題,幾年來微軟云計算出現(xiàn)多次此類故障。
6月15日,因重復(fù)分配內(nèi)部IP地址,谷歌云虛擬機(jī)實(shí)例大量出現(xiàn)聯(lián)不上網(wǎng)的問題。
6月27日,由于運(yùn)維失誤,導(dǎo)致一些客戶訪問阿里云官網(wǎng)控制臺和使用部分產(chǎn)品功能時出現(xiàn)問題。受影響范圍包括阿里云官網(wǎng)控制臺,以及MQ、NAS、OSS等產(chǎn)品功能。這次故障被阿里云內(nèi)部定義為S1級別(在阿里巴巴的線上業(yè)務(wù)故障級別中,對S1的定義是:核心業(yè)務(wù)重要功能不可用,影響部分用戶,造成一定損失)。
7月24日,騰訊云廣州區(qū)域部分用戶出現(xiàn)資源訪問失敗、控制臺登錄異常等情況。經(jīng)排查,是因騰訊云廣州一區(qū)的主備兩條運(yùn)營商網(wǎng)絡(luò)鏈路同時中斷所導(dǎo)致。但業(yè)內(nèi)人士均知,兩條運(yùn)營商網(wǎng)絡(luò)鏈路同時被挖斷的情況并不常見,所以對騰訊云這次事故的主要原因仍有存疑。
8月,騰訊云發(fā)生故障,直接導(dǎo)致北京的一家初創(chuàng)公司數(shù)據(jù)全部丟失。事實(shí)上,此事發(fā)生于7月,只是到8月才被曝光。
03
在2018年的云計算事故中,影響面比較廣的當(dāng)屬騰訊云的兩次故障事件。
第一個事件,正是上文提到的初創(chuàng)公司數(shù)據(jù)丟失事件。2018年7月,北京一家主要產(chǎn)品為“前沿數(shù)控自媒體”初創(chuàng)公司,在騰訊云的存儲數(shù)據(jù)全部丟失了。某個是時間段,前沿數(shù)控的程序員發(fā)現(xiàn)無法登錄云服務(wù)器,就反饋給騰訊云。得到的回復(fù)是“北京三區(qū)部分云硬盤出現(xiàn)故障,正在緊急恢復(fù)中”。幾天后,騰訊云告知前沿數(shù)控,這些丟失的數(shù)據(jù)無法找回了。于是,雙方開始賠償協(xié)商。前沿數(shù)控索賠1101.6萬元,而騰訊云只愿意賠償13.29萬,雙方陷入僵持。
而此事之所以傳播開去,是因?yàn)轵v訊云承諾9個9(騰訊云承諾99.9999999%的數(shù)據(jù)可靠性)的安全保障,也沒能保住前沿數(shù)控的數(shù)據(jù),且不能給予客戶認(rèn)為合理的賠償,進(jìn)而引發(fā)了諸多云服務(wù)使用者的熱烈討論。最終輿論演變?yōu)椋把財?shù)控在操作上存在失誤,但騰訊云服務(wù)的可靠性到底又有多高?廣告宣傳又有多少真實(shí)的存在?
此事表明,即便云服務(wù)商給予再高的承諾,云服務(wù)使用者也應(yīng)本著對數(shù)據(jù)服務(wù)的態(tài)度,數(shù)據(jù)一定要多云或者異地備份,不能完全依賴云服務(wù)商。否則,一但出現(xiàn)問題,就是賠償?shù)脑俣?,之前的?jīng)營數(shù)據(jù)也是無法挽回,甚至足以毀掉一個項(xiàng)目。
04
如果說數(shù)據(jù)丟失事故屬于“天災(zāi)”,那騰訊云的第二個事故則可以歸結(jié)為“人禍”。2018年8月,女性短視頻社區(qū)App“她拍”上線了一款名為“她face+”的P圖小程序,可將用戶五官和臉型融合到其他圖片素材中。她拍與騰訊云簽訂一年合同,購買其云服務(wù)及一項(xiàng)名為“人臉融合”的技術(shù)服務(wù),每月支付500萬左右費(fèi)用。騰訊云的“人臉融合”技術(shù)由天天P圖提供支持,此前兩個團(tuán)隊(duì)均屬騰訊SNG事業(yè)群。9月27號天天P圖停止向騰訊云提供技術(shù)支持,并力推同類小程序“瘋狂變臉”。期間恰逢騰訊架構(gòu)調(diào)整,因分屬不同事業(yè)群兩團(tuán)隊(duì)溝通協(xié)商難度加大。雙方多次溝通,但原合同無法繼續(xù)履行。
最終,10月17日達(dá)成結(jié)果,45天過渡期后“天天P圖”不再為“她face+”提供技術(shù)支持服務(wù)?!八摹眲?chuàng)始人王宏達(dá)認(rèn)為騰訊為推同類產(chǎn)品損害企業(yè)客戶的利益,起訴起訴騰訊云違約,并索賠一個億。
這個事件,意味著企業(yè)上云用云的風(fēng)險除了云計算平臺本身,還有很大的人為因素在內(nèi)。這也是很多企業(yè)一直擔(dān)心的問題,如果核心數(shù)據(jù)與模式被云計算廠商掌握并推出同類產(chǎn)品,企業(yè)又該如何是好?云計算廠商能夠拿到所服務(wù)企業(yè)的任何數(shù)據(jù),想要擠兌競品那是易如反掌之事。
05
看完上面所述事故,大家應(yīng)該已經(jīng)發(fā)現(xiàn),云計算事故難以避免,至少現(xiàn)在這個階段是這樣。但是在工業(yè)互聯(lián)網(wǎng)發(fā)展的大趨勢下,企業(yè)上云的進(jìn)程又是不可逆的,換言之就是不管企業(yè)如何考慮及看待云計算,最終都要主動或者被動上云的。因此,對亟待互聯(lián)網(wǎng)轉(zhuǎn)型的企業(yè)而言,云計算安全的問題就變成了出現(xiàn)事故如何賠償?shù)膯栴}。
其實(shí)對企業(yè)來說,要解決上云安全問題,至少要遵循兩點(diǎn):一是將安全提到最高,二是把損失降到最低。這兩點(diǎn),對于云計算平臺和上云企業(yè)都非常重要。筆者認(rèn)為,在安全問題上,云計算平臺當(dāng)盡量做到以下幾點(diǎn):
首先,云計算平臺當(dāng)盡量通過技術(shù)及管控手段將安全事故率降到最低,但再先進(jìn)的技術(shù)也不能保證萬無一失,仍舊需要相應(yīng)的運(yùn)營措施保證安全的最大化。
其次,還要在維護(hù)人員的管理方面,做更詳盡的管理規(guī)劃,杜絕技術(shù)之外的人為安全因素。
同時,還要明確安全責(zé)任問題,便于發(fā)生事故之后在處理問題上有據(jù)可依。對于這一點(diǎn),目前很多廠商都已在做,譬如AWS和阿里云和AWS都提出了安全責(zé)任共擔(dān)模型,阿里云負(fù)責(zé)云平臺基礎(chǔ)安全防護(hù),用戶負(fù)責(zé)虛擬化層以上的組件安全、業(yè)務(wù)安全等。
還有一點(diǎn),云平臺作為服務(wù)提供方,應(yīng)該對企業(yè)用戶提供一定的安全使用培訓(xùn),確保每個客戶全面了解云計算的應(yīng)用操作,避免因誤操作而造成平臺與企業(yè)的多方損失。
06
從企業(yè)用戶安全角度考慮,云計算安全就是企業(yè)應(yīng)該學(xué)會識云用云。
首先,企業(yè)要有上云安全意識。?當(dāng)時刻提醒企業(yè)管理者云計算安全的重要性,云平臺安全措施并不能保障數(shù)據(jù)的絕對安全。
其次,企業(yè)上云盡量不要把雞蛋放到同一個籃子。?一但云計算平臺出現(xiàn)事故,就有可能導(dǎo)致企業(yè)多年經(jīng)營全軍覆沒。目前來說,多云方案是最有效的降低數(shù)據(jù)丟風(fēng)險的手段,企業(yè)應(yīng)該將多云方案應(yīng)該由之前的備選方案轉(zhuǎn)變?yōu)槭走x,以將數(shù)據(jù)安全隱患降到最低。
第三,對于沒有能力搞混合云以及多云方案的初創(chuàng)企業(yè),要學(xué)會“狡兔三窟”。?除了應(yīng)用云計算之外,至少應(yīng)該做到數(shù)據(jù)的異地存儲,以免出現(xiàn)“前沿數(shù)控”哪種數(shù)據(jù)全丟的情況。
第四,小企業(yè)在大型云計算平臺往往會受到不公待遇,還需一定的監(jiān)管及規(guī)則。?小微企業(yè)話語權(quán)小,甚至?xí)霈F(xiàn)上述案例中被“隨意處置”的情況。關(guān)于這一點(diǎn),呼吁相關(guān)機(jī)構(gòu)盡快介入監(jiān)管,以確保在推動企業(yè)上云的同時,保證中小企業(yè)的合法權(quán)益。
第五,企業(yè)要盡量了解各種云計算平臺。?公有云、混合云、私有云每個方案都不是唯一的,上云企業(yè)出于安全考慮,當(dāng)充分了解幾種類型的優(yōu)缺點(diǎn),然后根據(jù)企業(yè)自身情況選擇不同方案,以確保企業(yè)數(shù)據(jù)的絕對安全。
此外,企業(yè)亦應(yīng)多關(guān)注更多保障安全的途徑。?在理賠方面,除了云平臺的賠償,上云企業(yè)亦可關(guān)注一下相關(guān)理財機(jī)構(gòu)推出的云保險等安全理賠項(xiàng)目。
07
得益于工業(yè)互聯(lián)網(wǎng)的快速發(fā)展,企業(yè)上云乃是大勢所趨。政策及經(jīng)濟(jì)形勢造就了企業(yè)上云紅利,云計算廠商規(guī)模得以快速擴(kuò)大。但在擴(kuò)大的同時更要保證用戶的數(shù)據(jù)安全,只有解決了安全問題才能打消企業(yè)心中顧慮,才能讓企業(yè)安心選擇云服務(wù)廠商,安心上云。所以,阿里云、騰訊云等多個云計算平臺的事故,反映的是整個云計算行業(yè)當(dāng)前存在的安全問題。解決或者不能說明這些安全問題,無疑會對即將上云的企業(yè)造成一定的心理阻礙。
事實(shí)上,平臺與用戶雙方誰也不想發(fā)生安全事故。但若出現(xiàn)問題,平臺就應(yīng)確保以更穩(wěn)妥合理的方式去解決問題。不然,就會造成企業(yè)對云計算平臺的信任度下降。上文也有提及,綜合而言解決用戶信任問題關(guān)鍵在于兩點(diǎn):
一是如何盡量避免出現(xiàn)此類問題。?一方面需要云服務(wù)商在安全層面上做足功夫,優(yōu)先保障云服務(wù)的安全最大化;另一方面從用戶角度考慮云服務(wù)商的便捷性與安全性,只有讓用戶以最簡單的方式享受高效安全的云服務(wù),使安全問題概率降到最低,才能增加用戶的信任感,進(jìn)而實(shí)現(xiàn)口碑效應(yīng)。
二是出現(xiàn)問題之后,如何妥善的處理。?隨著企業(yè)上云數(shù)量的增加,可以預(yù)見今后此類事件會更多。以前此類事件可能影響不會太大,但現(xiàn)在安全事件的發(fā)生概率關(guān)聯(lián)著潛在上云企業(yè)對云服務(wù)商的品牌形象的認(rèn)知。對某些小問題處理不當(dāng),可能就會引發(fā)用戶的不滿,進(jìn)而放棄使用云服務(wù)。所以,不怕出現(xiàn)問題,怕的是出現(xiàn)問題以后不能妥善合理的解決。只要云計算平臺能夠妥善解決善后問題,其他問題的解決也就不在話下了。
最后,再次叮囑云平臺與企業(yè)都要引以為戒,盡量避免出現(xiàn)云計算事故造成企業(yè)重大損失的情況。
工業(yè)互聯(lián)網(wǎng)趨勢下的企業(yè)上云大有可為,希望云平臺和正在數(shù)字化轉(zhuǎn)型的企業(yè),都能最大化享受這波紅利。
(原文作者:王吉偉)
|