構(gòu)造高可用性和高可靠性系統(tǒng)的1項(xiàng)重要原則是假定失效(Design forfailure)。換言之,你的設(shè)計(jì)模型應(yīng)具有正如亞馬遜的首席技術(shù)官(CTO)沃納?威格爾(Werner Vogels)曾說(shuō)的“1切事物隨時(shí)有可能失效”的特性。榮幸的是,現(xiàn)代數(shù)據(jù)中心、網(wǎng)絡(luò)和服務(wù)用具有高可靠性,且很少產(chǎn)生故障。但是,若你把偶爾的故障當(dāng)做是既定的,并簡(jiǎn)單建立1個(gè)在產(chǎn)生故障后能恢復(fù)且保持運(yùn)行的系統(tǒng),則你能建立1個(gè)強(qiáng)大的系統(tǒng)。
新1代自動(dòng)恢復(fù)
今天我想告知你1個(gè)新的EC2功能,當(dāng)某項(xiàng)EC2實(shí)例遭受侵害時(shí),該功能可使你更容易的構(gòu)建1個(gè)需要的系統(tǒng)。若干系統(tǒng)狀態(tài)檢查服務(wù)(2012年首次引進(jìn)并在以后得到屢次加強(qiáng))在幕后監(jiān)視上述實(shí)例和其他部件的如期運(yùn)行情況。在其他方面,它還檢查網(wǎng)絡(luò)連接、系統(tǒng)電源失效和物理主機(jī)上的軟件硬件問(wèn)題。
隨著新功能的發(fā)布,若底層硬件的系統(tǒng)狀態(tài)檢查出現(xiàn)故障,你可以計(jì)劃1個(gè)EC2實(shí)例的自動(dòng)恢復(fù)。該實(shí)例將重啟(若需要,實(shí)例將在新的計(jì)算機(jī)硬件上運(yùn)行)但將保存實(shí)例ID、IP地址、ElasticIP地址、EBS卷的裝配和其他配置細(xì)節(jié)。為進(jìn)行完全恢復(fù),你需確保上述實(shí)例作為初始化進(jìn)程的1部份能自動(dòng)啟動(dòng)任1服務(wù)和利用程序。
設(shè)計(jì)自動(dòng)恢復(fù)
你可以通過(guò)點(diǎn)擊鼠標(biāo)(就支持的實(shí)例類型和環(huán)境,見下文注釋)設(shè)計(jì)現(xiàn)存功能的自動(dòng)恢復(fù)。簡(jiǎn)單的創(chuàng)建CloudWatch報(bào)警僅需要StatusCheckFailed_System指標(biāo)和選擇Recover this instance操作。
第1步,查找和選擇感興趣的實(shí)例標(biāo)準(zhǔn):
第2步:點(diǎn)擊“創(chuàng)建警報(bào)”按鈕:
刪除通知功能(除非你出于其他緣由依然需要該功能),添加EC2功能,再選擇Recover this instance。設(shè)置臨界值是1,設(shè)置統(tǒng)計(jì)值最小化和指定適當(dāng)值連續(xù)周期的編號(hào)(假定收集權(quán)值的間隔時(shí)間是1分鐘,則兩分鐘至3分鐘為最宜)。
適用的實(shí)例類型和環(huán)境
本實(shí)例適用于美國(guó)東部地區(qū)(北維吉尼亞州)的C3實(shí)例、C4實(shí)例、M3實(shí)例、R3實(shí)例和T2實(shí)例;我們計(jì)劃將盡快在其他地區(qū)推行。上述實(shí)例需在在VPC中運(yùn)行,且需利用EBS支持的存儲(chǔ),而非專用實(shí)例。
EC2功能部份無(wú)附加使用費(fèi)。CloudWatch 的付費(fèi)信息參考CloudWatch 定價(jià)頁(yè)面。
了解更多,請(qǐng)瀏覽關(guān)于“實(shí)例恢復(fù)”的文檔!
注:本文作者Jeff Barr于2015年1月19日?qǐng)?bào)導(dǎo)