了解最新公司動(dòng)態(tài)及行業(yè)資訊
點(diǎn)擊▲關(guān)注“IT168企業(yè)級(jí)”到公眾號(hào)置頂
更精彩的第一次直達(dá)
在信息時(shí)代,服務(wù)器宕機(jī)頻繁發(fā)生,即使各種掠食者都無(wú)法阻止,比如最近發(fā)生的一些服務(wù)器宕機(jī)。
1.12月14日晚,微軟云服務(wù)器全球再次宕機(jī),多個(gè)國(guó)家和地區(qū)的用戶深受影響。最后發(fā)現(xiàn)服務(wù)中斷的原因是云服務(wù)器存儲(chǔ)空間滿了。2.12 月 25 日期間,許多用戶經(jīng)歷了激活失敗和登錄失敗的情況。除此之外,就連Apple Watch等產(chǎn)品的激活都受到了影響。由于高流量負(fù)載,Apple 的客戶服務(wù)在線響應(yīng)。3.12月25日中午服務(wù)器運(yùn)維,中信期貨交易軟件死機(jī),易金APP始終無(wú)法登錄交易。這件事一度在微博上火了。4.12 月 26 日,任天堂 eShop 遭遇停機(jī),任天堂發(fā)表聲明稱“
...
這種風(fēng)波層出不窮,相信運(yùn)維也不陌生。所謂“失敗者有輪回,天之驕子”。停機(jī)時(shí)間使運(yùn)維工作處于被動(dòng)“救火”狀態(tài)。運(yùn)維就像一塊磚頭,哪里需要搬?這些模式也讓 IT 部門感到疲倦。
理論上,沒(méi)有絕對(duì)安全、絕對(duì)可用和絕對(duì)沒(méi)有問(wèn)題的服務(wù)器和應(yīng)用程序。作為運(yùn)維人員,有必要全面了解服務(wù)器宕機(jī)的原因和解決方法。
服務(wù)器宕機(jī)的原因
1.運(yùn)行環(huán)境有問(wèn)題,如機(jī)房停電導(dǎo)致服務(wù)器斷電(欠壓、過(guò)載、波動(dòng))、機(jī)房室溫低、散熱不良、資源沖突、文件損壞、系統(tǒng)故障等。服務(wù)器宕機(jī)。
2.服務(wù)器不堪重負(fù),最常見的情況是大規(guī)模高消耗服務(wù)器資源,如C盤空間耗盡、訪問(wèn)值過(guò)高、程序中毒、遭受電源攻擊等。
3.主備數(shù)據(jù)不一致導(dǎo)致的復(fù)制問(wèn)題。
4.性能問(wèn)題、SQL或索引設(shè)計(jì)運(yùn)維不佳等。
運(yùn)維需要檢查哪些方面?
? 硬件
(1)檢查是否有硬件沖突;
(2)比較服務(wù)器電源加載的電源,判斷電源是否有故障;
(3)掃描硬盤表面檢測(cè)是否有低幀;
(4) 由錯(cuò)誤報(bào)告和操作系統(tǒng)錯(cuò)誤信息決定;
(5)使用更換方法判斷顯卡、CPU、SCSI/RAID卡或其他PCI設(shè)備是否有故障。
? 軟件
(1)查看操作系統(tǒng)的系統(tǒng)日志,可以通過(guò)系統(tǒng)日志判斷藍(lán)屏的一些原因;
(2)判斷硬件沒(méi)有故障后服務(wù)器運(yùn)維,再考慮系統(tǒng)軟件出現(xiàn)bug和漏洞的原因;
(3)如果是因?yàn)檐浖褂貌划?dāng)或者系統(tǒng)工作壓力過(guò)大,可以適當(dāng)增加服務(wù)器的工作壓力;
(4)筆記本病毒。
在了解了原因和故障排除方法后,運(yùn)維一定要從源頭上防止停機(jī)的發(fā)生。一般是因?yàn)楣收项A(yù)警機(jī)制不完善,使得運(yùn)維只能在停機(jī)發(fā)生后進(jìn)行處理,大大提高了工作效率。
24小時(shí)免費(fèi)咨詢
請(qǐng)輸入您的聯(lián)系電話,座機(jī)請(qǐng)加區(qū)號(hào)