了解最新公司動態(tài)及行業(yè)資訊
之前我們介紹了農(nóng)行在分布式系統(tǒng)環(huán)境下運維面臨的挑戰(zhàn)和困難,分布式運維的建設(shè)模式,分布式系統(tǒng)下運維工具的實施建議。但是,工具的建設(shè)并不意味著運維轉(zhuǎn)型升級的成功。運維體系建設(shè)需要科學(xué)的指導(dǎo)思想和系統(tǒng)的建設(shè)理念。
本文以經(jīng)典的運維系統(tǒng)概念——SRE為例。通過對SRE主要內(nèi)容的分析,梳理一下SRE與運維開發(fā)的關(guān)系。同時,我們將通過對典型 SRE 落地案例的解讀與大家進行講解。 SRE在金融行業(yè)的落地經(jīng)驗。
01.SRE 主題演講內(nèi)容概覽1)什么是 SRE
首先,我們來看看SRE的幾個定義:
從單獨的角度來看,源自 Goole 的 SRE 的定義更適合其組織。首先,它擁有強大的人才庫。其次,經(jīng)過大量內(nèi)部實踐,經(jīng)得起考驗。同時,由內(nèi)而外的推進it運維,推動了這一制度的實施更加全面。但對于外企來說,全能型人才的稀缺和傳統(tǒng)觀念的固化,讓這個定義并不那么成立。
從國外公司本身的角度,我們更傾向于第三種:從實踐的角度來看,SRE的關(guān)鍵點就一個字:系統(tǒng)化,我們需要從全局的角度去更透徹的理解. SRE實際上需要多個團隊、多個崗位來承擔(dān)不同的職能,但每個團隊可以相互配合,對外對接業(yè)務(wù)團隊和產(chǎn)品團隊,建立工具實現(xiàn)日常運維。
2)SRE 和關(guān)系
本質(zhì)上,SRE 與 SRE 并沒有太大的不同。它們都是從分布式、云原生、容器化、微服務(wù)等技術(shù)衍生出來的概念。我們可以將其理解為 SRE 核心概念的通用版本。相比之下,它更加具體,SRE是經(jīng)過具體實踐提煉出來的理論體系。
3)SRE指導(dǎo)思想和關(guān)鍵概念
SRE 有以下指導(dǎo)原則:
關(guān)于以上指導(dǎo)思想,我們可以把SRE的一些關(guān)鍵概念聯(lián)系起來,讓我們對SRE體系有一個更清晰的認識。
在關(guān)鍵概念上,主要分為四個層次
4)SRE職位/團隊主要工作
了解了整個SRE體系的工作方式和技巧之后,具體的SRE團隊在做什么內(nèi)容呢?主要分為以下三只藍籌股:
在這個過程中,我們可以得出下一個結(jié)論,即:運維模式/系統(tǒng)的下一站是SRE,運維技術(shù)的下一站是AIOps。
5)SRE 方法
在方法論層面,有以下幾個重點:
02.SRE運維平臺及運維開發(fā)1)運維管理平臺:實現(xiàn)SRE運維開發(fā)的基礎(chǔ)
SRE多次指出,運維組織需要參與運維工具的開發(fā),才能實現(xiàn)SRE的變革。在工具的開發(fā)上,傳統(tǒng)公司和互聯(lián)網(wǎng)公司會有很大的不同。
因此,對于大多數(shù)企業(yè)來說,要實現(xiàn)SRE運維開發(fā)it運維,需要一個統(tǒng)一的基礎(chǔ)——具備通用的能力和通用的開發(fā)框架,同時提供統(tǒng)一的資源管理和資源驅(qū)動能力。在此基礎(chǔ)上統(tǒng)一管理上層資源,實現(xiàn)數(shù)據(jù)接入和能力擴展,下層通用能力框架實現(xiàn)工具化開發(fā)、可控增長,構(gòu)建完整的平臺化運維開發(fā)體系.
包括幾個典型場景:
CMDB——SRE運維管理體系的基石,構(gòu)建消費驅(qū)動、可見、可用、可信、可靠的運維優(yōu)質(zhì)CMDB,支撐運維發(fā)展改革。
可觀察性 - 幫助 SRE 實現(xiàn)全鏈路跟蹤和問題根源定位。根據(jù)平臺建立trace、log、關(guān)聯(lián)分析鏈接,實現(xiàn)數(shù)據(jù)統(tǒng)一處理。
手動編排引擎 - SRE 手動操作和維護的機會。人工場景的構(gòu)建需要底層引擎的支持,調(diào)用基礎(chǔ)能力建立下層人工體系,支持SRE工具能力的擴展。
03.SRE對金融行業(yè)的介紹1)落地案例分析
以國外某小型建設(shè)銀行的SRE實踐為例,其SRE落地過程有以下幾個關(guān)鍵點:
①確定SRE落地的核心概念:
符合常年戰(zhàn)略,提升運維自動化重復(fù)性工作,完善SRE團隊,提升運維價值。
②組建SRE試點團隊:
包括組長、輪值組長、業(yè)務(wù)核心技術(shù)人員,以及其他部門的助理,對應(yīng)的人員從不同的團隊中挑選出來,保證大家對建設(shè)目標有清晰的認識SRE 并為其做出貢獻。
③SRE工作模式:采取和平與戰(zhàn)爭相結(jié)合的模式。
戰(zhàn)時應(yīng)急依賴于常用的施工工具、自動化能力、問題總結(jié)等,形成了平時與戰(zhàn)時相結(jié)合的工作模式。
④SRE團隊OKR:
團隊OKR的制定與工作模式緊密配合。通過平時與戰(zhàn)時結(jié)合,可以看到全景業(yè)務(wù)系統(tǒng),可以管控應(yīng)急響應(yīng),可以計算分析業(yè)務(wù)指標。同時,SRE團隊建立了周會、月會、專題會三會機制,確保日常工作和特殊問題的快速處理。
目前,該行的SRE實踐比較成功。其核心在于SRE團隊的建立。一方面,開發(fā)商需要介入。核心業(yè)務(wù)人員必須懂發(fā)展,懂結(jié)構(gòu),有經(jīng)營和維持發(fā)展的能力。另一方面,要有組織能力。將SRE建設(shè)目標分解為各個團隊,實現(xiàn)人員之間能力的整合,形成系統(tǒng)化的組織,推動整個SRE流程。
此外,我們還對多家企業(yè)的SRE流程和實施實踐進行了詳細深入的分析,包括農(nóng)業(yè)建設(shè)銀行、騰訊、美圖等,感興趣的請點擊了解更多!
2)經(jīng)驗分析
①SRE適合落地金融行業(yè)嗎?
SRE 是一個系統(tǒng)化的過程。從組織架構(gòu),到文化推廣,到工具的建立,到人員能力的提供,都會產(chǎn)生一個完整的SRE體系。
我們建議我們可以先專注于其中一個方向,例如將工具移近平臺級別。同時,如果有余力,可以考慮建設(shè)一部分運維開發(fā)能力。除了組織能力,還可以適當培養(yǎng),讓它一步步走向SRE,而不是一飛沖天。
②如果要落地,需要注意什么?
主要有三點:
標準規(guī)范制定:標準化和標準化是完善系統(tǒng)的第一步。運維的標準規(guī)范必須與開發(fā)和業(yè)務(wù)保持一致。
具備軟件開發(fā)能力:只有將運維需求轉(zhuǎn)化為運維產(chǎn)品,運維產(chǎn)品最終實現(xiàn)為具體的工具和系統(tǒng)。
組織變革:SRE是運維和開發(fā)能力的結(jié)合。它需要一些懂開發(fā)的運維人員和一些懂運維系統(tǒng)的開發(fā)人員。運維和開發(fā)需要互相了解,然后結(jié)合對方的需求到自己的工作中。