了解最新公司動態(tài)及行業(yè)資訊
阿里巴巴的運維系統(tǒng)經(jīng)歷了腳本時代、工具時代和時代,目前正在實現(xiàn)人工運維和探索智能運維階段。 2008-2009年,阿里巴巴的運維還處于腳本時代,大量的運維工作需要通過腳本來實現(xiàn)。 隨著業(yè)務規(guī)模和復雜度的擴大,腳本的形式越來越難以維護,于是阿里巴巴開始引入運維工具。 在運維工具時代,阿里巴巴的運維體系經(jīng)歷了:從工具團隊和運維團隊并行的階段,到工具團隊為了更好的保證質(zhì)量的階段的工具,然后到部分軟件有想法和功能的工具組階段。 終于,阿里巴巴的應用運維團隊迎來了一次大變革。 原有的應用運維團隊全部解散,并入各業(yè)務的軟件開發(fā)團隊,全面推進思想。
進入階段后,成熟的流程化運維工具實際上提升了部分運維效率,而且各個工具實際上是獨立分離的,比如監(jiān)控工具和運維工具分離,巡檢工具和快速恢復工具也是碎片化的,導致在日常應用的持續(xù)運維過程中,從監(jiān)控到問題發(fā)現(xiàn)、定位、快速恢復的環(huán)節(jié)漫長且效率低下。 對于運維開發(fā),期望的狀態(tài)是業(yè)務應用上線后可以“NoOps”。 監(jiān)控和運維系統(tǒng)可以自行檢測異常并手動解決,使應用和業(yè)務恢復正常。 處理完成后,發(fā)送消息通知下載即可。 發(fā)力于“NoOps”方向,阿里巴巴應用運維開始構(gòu)建“管控一體化”體系。
新的挑戰(zhàn)
隨著阿里巴巴業(yè)務的不斷發(fā)展和技術架構(gòu)的不斷變化,新的場景和問題不斷涌現(xiàn)。 這種以應用為中心的監(jiān)控運維帶來了新的挑戰(zhàn)。
超大規(guī)模
阿里巴巴不僅業(yè)務種類多,體量大,尤其是一年一度的淘寶雙11大促,需要超大規(guī)模IAAS資源的支持。 2015年之前,阿里巴巴每年都要花費巨資訂購服務器,建設一代又一代的IDC數(shù)據(jù)中心; 2015年到2019年it運維技術,阿里巴巴正處于全面云化的過程中。 這期間,阿里巴巴的基礎設施一部分在云下的數(shù)據(jù)中心,一部分在阿里云上的數(shù)據(jù)中心。 還需要支持同城多活到異地多活,所以需要有強大的cloud-on-cloud整合超大規(guī)模資源管理的能力; 阿里巴巴在2019年實現(xiàn)全面云化后,開始面臨一個全新的超大規(guī)模資源管理場景:混合云。
運維效率
業(yè)務發(fā)展瞬息萬變,尤其是公司的重要業(yè)務,迭代變化的速度非常快。 在超大規(guī)模集群管理的前提下,為保證業(yè)務的連續(xù)性和快速迭代,我們需要能夠持續(xù)高效地實現(xiàn)應用的發(fā)布、部署、配置變更等運維變更。 這是持續(xù)運維領域要解決的問題。
運維安全
安全是任何行業(yè)的基礎,尤其是IT運維領域。 系統(tǒng)宕機、數(shù)據(jù)異常、數(shù)據(jù)丟失、數(shù)據(jù)庫刪除、逃逸等運維故障和風波層出不窮,可能給企業(yè)帶來致命打擊,甚至影響企業(yè)生死存亡。 為此,預防和遏制高危運維故障仍是不懈追求的目標。 在當代眾多業(yè)務形態(tài)和云技術架構(gòu)下,如何保障企業(yè)IT運維的安全運行顯得尤為重要。
業(yè)務連續(xù)性
在阿里巴巴傳統(tǒng)的監(jiān)控運維模式中,應用的運維開發(fā)需要在監(jiān)控系統(tǒng)上配置一些監(jiān)控項和預警規(guī)則。 當監(jiān)控項觸發(fā)告警規(guī)則時,運維開發(fā)會收到告警通知。 然后運維開發(fā)需要打開記事本,在運維工具平臺創(chuàng)建相應的處理工單。 運維系統(tǒng)工單執(zhí)行完成后,運維開發(fā)要繼續(xù)觀察監(jiān)控項是否恢復正常。 節(jié)假日、節(jié)假日收到預警通知,不能及時上線查看情況,需要聯(lián)系其他團隊成員上線處理; 如果你在晚上睡夢中收到預警通知it運維技術,你需要立即喚醒大腦,打開筆記本上網(wǎng)。 . 整個預警異常處理過程持續(xù)時間長,需要人工參與的任務多,人工成本高,使得運維開發(fā)的工作幸福感很低。
另一方面,隨著業(yè)務的不斷發(fā)展,系統(tǒng)也在不斷減少,監(jiān)控項和預警也在快速增加。 漸漸地,運維開發(fā)會僵化或輕視預警信息,很容易遺漏一些重要的上報信息,導致線路故障。 生意失敗。 近年來,天貓直播、盒馬線下門店、餓了么訂餐、釘釘在線教育等新業(yè)態(tài)蓬勃發(fā)展。 這類業(yè)務基本上對生產(chǎn)故障零容忍。 原有系統(tǒng)最好的99.99%可用性早已無法滿足新業(yè)務的要求,而傳統(tǒng)的監(jiān)控、運維、單打獨斗的模式,更難以滿足100%業(yè)務連續(xù)性的要求。新服務。
解決方案
為保障生產(chǎn)業(yè)務的持續(xù)運行,提升業(yè)務系統(tǒng)從異常預警到異常恢復的整體效率,在保障安全的同時降低人力成本,我們考慮將監(jiān)控預警與運維執(zhí)行合二為一,并然后實現(xiàn)異常人工檢測、自動快速定位、人工快速恢復的目的,實現(xiàn)應用運維的“NoOps”狀態(tài)。
在應用監(jiān)管一體化建設之前,傳統(tǒng)的監(jiān)控和運維處于分離狀態(tài)。 運維開發(fā)如果想在應用的迭代變更過程中關注系統(tǒng)運行狀態(tài),需要提前在監(jiān)控平臺上定義和配置應用的關注度。 各項指標。 在應用變更期間,需要持續(xù)主動查看應用監(jiān)控指標的變化情況,或者為各個指標設置預警規(guī)則,通過訂閱接收配置的監(jiān)控報告,及時獲取應用運行異常情況。 當應用變更出現(xiàn)異常上報時,運維開發(fā)需要通過查看監(jiān)控、應用日志、應用調(diào)用鏈接等信息分析異常原因,決定需要對運維執(zhí)行哪些任務和維護平臺恢復,最后驗證任務執(zhí)行結(jié)果是否符合預期。 為此,明確需求->配置監(jiān)控指標并上報->分析異常原因->決策處理方法->執(zhí)行任務->驗證執(zhí)行結(jié)果,整個過程需要運維開發(fā)的介入。
解決方案
以保障業(yè)務連續(xù)性為動力源泉,在逐步深化監(jiān)管融合的過程中,阿里巴巴從實戰(zhàn)經(jīng)驗中積累了一套業(yè)務系統(tǒng)安全工程標準,實現(xiàn)了業(yè)務異常的早期發(fā)現(xiàn),自動定位,快速回收。 聯(lián)創(chuàng)在監(jiān)控、運維、安全防護等領域探索了多元化的解決方案。
安全
在推進的過程中,我們要求的底線是不要給現(xiàn)有的情況帶來更多不可控的激勵,尤其是高風險場景的保護,不要因為運維工作交接給運營造成全局性的系統(tǒng)性問題和維護開發(fā)人員。 風險,所以安全防護方案應運而生。
全景監(jiān)控
監(jiān)控是運維的基礎。 傳統(tǒng)的資源監(jiān)控或應用監(jiān)控模式早已無法滿足運維發(fā)展快速發(fā)現(xiàn)生產(chǎn)故障的需求。 基于阿里巴巴大規(guī)模實踐,我們開發(fā)了以應用為中心,從底層業(yè)務到PaaS再到底層資源的全鏈路監(jiān)控解決方案,為業(yè)務異常檢測和定位提供有力支撐。
多元化運維
為實現(xiàn)監(jiān)管一體化,促進業(yè)務異常快速、人工恢復,應用運維從原有的以應用為中心的可編排運維、智能運維等運維模式探索單風暴執(zhí)行模式,打通運維。 維度領域的新視角。
總結(jié)
阿里巴巴應用運維管控一體化建設隨著業(yè)務形態(tài)和技術架構(gòu)的不斷探索和發(fā)展。 本文主要介紹應用運維監(jiān)控一體化建設的背景和思路。 我們以應用為中心,從應用監(jiān)控管理的角度,通過全視圖監(jiān)控實時掌握應用的運行狀態(tài),通過高效的發(fā)布部署和靈活的運維安排對應用進行安全變更,實現(xiàn)它通過智能運維和安全防護對應用進行中層保護,我們會在后續(xù)章節(jié)為大家詳細展開。
【關于云霄】
云效,云原生時代一站式平臺,支持公有云、專有云、混合云多種部署形態(tài)。 通過云原生新技術、新開發(fā)模式,推動創(chuàng)新創(chuàng)業(yè)、數(shù)字化轉(zhuǎn)型企業(yè)快速實現(xiàn)開發(fā)敏捷和組織敏捷,打造“雙敏”組織,實現(xiàn)效率10倍提升。
立即體驗:阿里云云效_云效_云原生時代新平臺-阿里云