課程簡(jiǎn)介
故障演練在這2年已然成為了各個(gè)公司都在探索的工程實(shí)踐,它是一個(gè)遵循混沌工程實(shí)驗(yàn)原理并通過注入常見的故障場(chǎng)景來提升當(dāng)前分布式系統(tǒng)的容錯(cuò)性的有效方式?;煦绻こ套钤缡怯?Netflix 提出的,他們?yōu)榱私鉀Q服務(wù)不穩(wěn)定的問題創(chuàng)新性地引入了 ChaosMonkey,通過隨機(jī)的給自己的服務(wù)制造混亂,從而促進(jìn)工程師們?cè)陂_發(fā)設(shè)計(jì)系統(tǒng)的時(shí)候就要考慮到服務(wù)的穩(wěn)定性,這也逐漸成為了整個(gè)公司的工程師文化。后來,各大巨頭google、 facebook、aws 、microsoft 也都采用了同樣的方法來保障服務(wù)的穩(wěn)定性。
歷史總是驚人的相似,今天國(guó)內(nèi)的互聯(lián)網(wǎng)系統(tǒng)越來越復(fù)雜,很多公司也遇到了當(dāng)初 Netflix 遇到的問題,因此故障演練開始進(jìn)入大家的視線。本次工作坊旨在給大家講解混沌工程理論與落地的經(jīng)驗(yàn)。并通過此次工作坊,讓大家可以設(shè)計(jì)出適合自己業(yè)務(wù)場(chǎng)景的故障演練平臺(tái),并切實(shí)的解決系統(tǒng)穩(wěn)定性問題。
工作坊大綱:
一. 混沌工程介紹
1. 背景
2. 核心原則
3. 價(jià)值
二. 業(yè)內(nèi)大廠是如何落地混沌工程的
1. 案例 - Netflix
2. 案例 - 阿里
3. 案例 - 攜程
三. 我們是如何落地混沌工程的
1.流程設(shè)計(jì)
2.產(chǎn)品設(shè)計(jì)
2.1 故障畫像分析
2.2 故障場(chǎng)景設(shè)計(jì)
2.3 故障預(yù)案設(shè)計(jì)
2.4 應(yīng)用穩(wěn)態(tài)指標(biāo)設(shè)計(jì)
2.5 監(jiān)控告警設(shè)計(jì)
2.6 演練范圍設(shè)計(jì)
2.7 演練斷路器設(shè)計(jì)
2.8 演練報(bào)告設(shè)計(jì)
3. 技術(shù)架構(gòu)
4. 演練實(shí)戰(zhàn)
四. 如何根據(jù)自己的場(chǎng)景落地混沌工程
目標(biāo)收益
1. 了解混沌工程的背景、原理與價(jià)值
2. 了解業(yè)界大廠的混沌工程實(shí)踐
3. 可以設(shè)計(jì)出適合自己的故障演練平臺(tái),并切實(shí)地提高線上系統(tǒng)的穩(wěn)定性
培訓(xùn)對(duì)象
課程大綱
|