HonesTidc工程師大大實在忙,這期HonesTidc小編就科普一篇機房運維人員如何著手運維工作。一來讓入行的小白們瞭解運維主要幹什麼,二來希望有志成為運維工程師的小夥伴吸收相關的科技經驗,做好入行準備。
閒話不說,讓我們瀟瀟灑灑的長知識吧:
HonesTidc資料中心運維的工作主要是對資料中心各項管理對象進行系統的計畫、組織、協調與控制,是資訊系統服務有關各項管理工作的總稱,具體包括對機房環境基礎設施部分的維護,系統與數據維護,管理工具的使用,人員的管理等方面。
一、善於做好工程檔案記錄
資料中心的主機安裝,配寘優化、組建網絡、設備互聯等都需要通過檔案的形式進行記錄,以便出現故障能够快速排查。同時以記錄檔案的形式進行工作交接更謹慎。還有通過日積月累的檔案記錄對於工作經驗來說也是一種沉澱,對優化資料中心的運維能力也有了數據支撐。檔案主要分四類:一是資料中心內部架構檔案,比如:組網介紹、設備互連關係、IP分配情况、空調系統、機電系統、佈線系統等的基本狀況;二是資料中心管理檔案,比如:機房管理制度、機房值班和交接制度、機房巡檢制度、設備操作規範制度,安全防護制度等等。三是資料中心改造,優化工程檔案。比如:陞級指導書、網絡變更計畫書、應急措施指導、軟件回退方案等等。四是資料中心運維的經驗檔案。比如:網絡中斷問題分析、現有機房環境評估、如果進行業務不丟包切換等等。這些檔案可以給初入行業的新人一個可靠的參攷指南,迅速上手。
二、業務備份判斷
資料中心需要24小時連續運行,除了一些外力因素,譬如惡意攻擊等行為導致的服務器故障外,還有資料中心內部的一些不可抗因素,對資料業務的備份水准不僅是對企業用戶的一個保障,也是一個資料中心實力的體現。小到服務器、網絡到存儲,大到資料中心,都需要有備份,包含軟件的備份和硬體的備份。通過備份,可以在資料中心運行出問題時,及時做業務調整,確保業務無中斷或者短時中斷。如今的資料中心可以做到多資料中心相互備份,以防以資料中心為組織的整體故障出現時業務中斷。一般這種情況是基本不可能出現的。當然,數據的備份要消耗相當的儲存空間和新增管理難度。所以如何對業務備份進行判斷,使備份行為更加有序是每個運維工程師需要思考和提升的。
三、學習線上監測數據
機房內的各個關鍵設備和關鍵設備所需要的環境因素共同構成了機房的整個生態系統,各個系統的協同工作才能保障整個生態系統的穩定、有序運轉。而傳統的資料中心會為各個設備配備專人進行值守,通過定期巡查和手抄記錄來對資料中心各設備的運轉情况進行監控。如此的管理管道,一是加重了資料中心的管理成本。二是科技人員並不能做到百分百的精准管控,對出現故障的排查及時性沒有太大用處。同時機房重地,人員的頻繁流動,對機房生態環境的維護有害而無利。把UPS、配電櫃、散熱空調、烟感、恒濕度、門禁系統通過數據視覺化來實現集中監控。線上監測是確保資料中心無故障運行的保證,有效的線上監測可以减少資料中心故障發生對業務造成影響。
四、週期性的機房巡檢
運維人員還需要進行週期巡檢,包括對各種設備的檢查,環境的檢查,電源、空調設備的檢查,填寫日常巡檢記錄表,檢修記錄,工作操作錶等等。通過以往記錄的數據進行綜合分析,一旦某些數據有波動或者异常,應該及時採取有效措施,避免隱患引發故障。通過週期巡檢也可以對整個資料中心有個全面的瞭解,一旦要進行系統改造或者擴容等工作,有了前期這些巡檢數據參攷,製定的改造或擴容方案才更有針對性。千萬不要以為週期巡檢只是記錄一些設備運行的基本參數,通過這些參數可以看到整個資料中心的運行狀態。對於一個剛從事運維的新手來說,通過週期巡檢可以迅速瞭解到資料中心的各個環節,獨立展開維護工作。
總的來說,以上四個方面是運維人員主要的工作內容,一個資料中心長期穩定運行也有賴於這四部分工作完成的水准。當然,資料中心運維好了,資料中心有了良性的收益成果。小編打賭,年終獎你最多。
TOP